最权威、最系统的人才工作门户网站

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

2018-12-28 14:44:32 投稿人 : haixia002 围观 : 46771 次 0 评论

  雷锋网 AI 科技评论按:这篇文章来自 Automattic 的数据科学家 Carly Stambaugh,她研究了一个看似简单的问题:分析序列数据中的季节性。「季节性」说起来很简单,但是真的分析的时候,你要如何知道你分析出的季节性是切实存在的呢?雷锋网(公众号:雷锋网) AI 科技评论全文编译如下。


季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  最近有人找我帮忙,具体是要某个时间序列中的「季节性」程度如何。听起来仿佛很轻松的样子,对吧?要知道在 Python 的模块包 statsmodels 中就有一个看起来很好用的 seasal_decompose 函数,并且你能在谷歌上很轻易的找到它!但实际上,这事儿却比我预期的要复杂点儿。在这篇文章中,我将分享我在处理这个项目时遇到的一些问题以及我是如何应对的。

  在试图找到那些能够量化时间序列受季节性因素影响程度的帖子或论文时,我将遇到的所有例子分为两大类:

  • 给出了几行代码,可以生成时间序列分解的可视化。

  • 给出了如何移除时间序列中的季节性成分,从而在构建预测模型之前可以先拥有一个稳定的时间序列。

  此外,每个例子都以「这是一个季节性趋势的时间序列」开头。所以,当你想去确定一个特定时间序列,它的季节性因素有多大时,这就提供不了什么帮助。

  我发现没有任何人写过如何量化时间序列受季节性因素影响的程度。甚至,我还发现了一些与季节指数相矛盾的信息,于是决定继续探索下去。当然了,如果说我继续去寻找这样的信息,我想我最终也能找到些什么。但我偏不继续找,而是决定自己动手进行实验!

  系列分解

  首先,我将时间序列分解为趋势,季节性和噪声成分。这些成分看起来像这个样子。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  这个时间序列有多季节性?¯\ _(ツ)_ /¯ (自上到下:观测数据,趋势分量,季节性分量,残差)

  从季节分解分量的周期性来看,乍一看,数据明显是季节性的。但是,在谷歌搜索季节性分解的几个例子中,我遇到的每个季节性成分都显示出周期性。

  所以,我制作了一个 0 到 1000 之间随机数据点组成的时间序列,并对其进行了分解。分解以后看起来像这样。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  神圣的周期,蝙蝠侠!

  它竟然也显示出了周期性!不过,如果仔细查看每个成分中的 y 轴,就能注意到噪声成分在随机时间序列中具有最大范围。

  不过,在所讨论的时间序列中,季节性成分的范围比趋势或噪声显然要小得多。

  • 趋势范围:2000(3000至5000)

  • 季节范围:500(-250至250)

  • 噪声范围:2000(-1000至1000)

  (我注意到这里的趋势和噪声范围有相同的幅度,但却不知道这意味着什么。如果你知道的话,请毫不吝啬的在评论中分享给我们吧!)

  接下来,出于好玩的目的,这里还做了一个完全季节性时间序列的分解。其每年 1 月的值为 100,每月增加 100,直到 12 月达到 1200,并在 1 月再次回落到 100。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  纯季节性时间序列。也说得过去吧。

  正如你在纯粹由季节性趋势驱动的数据中所预期的那样,趋势和噪声分量是一个常量值0。

  考虑到我们的系列看起来更接近随机数据,而不是纯粹的季节性数据,季节性分解如果说会有结果的话,那它似乎将指向一个弱季节性。在此,我对这个结论持怀疑态度,于是决定寻找更多的证据。那么接下来我们就开始使用另一种方法吧!

  去趋势算法

  这是一个消除趋势依赖的过程,这种依赖可能在时间序列中出现。我使用差分方法来检查数据的趋势依赖性。

  假设你有一个数据集,它具有很强的年度季节性趋势。比如:如果你想预测 6 月的价值是多少,看看去年 6 月的价值,你就会得到关于你能预期的信息。

  再假设你有一个趋势,它不以周期性的方式波动,而只是增加或减少。这种情况下,如果你想预测自己 6 月份的销售额,就可以通过查看 6 月份之前的月份来获得比只查看去年同期更多的信息。

  这两种趋势都可以从时间序列中剔除。在差分中,你基本上是减去最相关的先前值来考虑趋势。

  例如,从时间序列中删除一个「向右上方」的趋势,本质上就是将图形在平面上旋转,留下「向右走」,但消掉「向上走」。「去除季节性趋势基本上可以消除图表中的起伏。」时间序列的去趋势通常用于生成一个固定序列,从中可以建立一个预测模型。下面就是从数据集中移除向上向右的趋势的例子。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  之前和之后:稳定时间序列

  因此,我推断,通过移除特定类型的趋势,并将结果序列与原始序列进行比较,我们可以判断特定序列对原始时间序列的「影响」程度。

  下面是每个不同的过程如何影响序列。这其中包含了原始序列的一个图作为参考。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  去趋势结果的比较

  从这些数据来看,除去每日趋势(或者如上文所说仅仅是趋势组成部分)对原始系列的影响比除去季节性趋势更大。不过,去除季节性趋势也有一些影响。这巩固了我之前的结论;如果数据中有季节性因素,那么与整体趋势相比就显得很弱。

  对我而言,这似乎还不足以佐证,所以我又检查了一件事。

  自相关函数

  在那个周末,我正喝着每月一售的数学啤酒(是的!就是有这么个东西!),我在研究生院的一个朋友建议我研究自相关函数(ACF)。

  自相关函数显示了数据集与自身随着时间的推移而变化的版本的关联程度。它计算了许多可能的时间变化的相关性(称为滞后),和表面重复的相关性模式。

  回到我们制作的数据集,我们纯季节性时间序列的 ACF 看起来像这样。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  ACF非常季节性的时间序列

  注意每隔 12 秒出现的尖峰。这意味着,当该变化是 12 个时间段(在我们的例子中是几个月)的倍数时,原始序列和其移位版本之间的相关性最高,表明了每年的季节性趋势。

  这些图中的蓝色区域表示这些相关度量的置信区间。因此落在这个锥体之外的尖刺不太可能是偶然的。

  牢记这一点之后,再让我们看看随机级数的ACF。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  随机生成的时间序列的ACF

  在这里,有一些尖峰,但它们都非常牢固地在锥体内,所以这个ACF不支持季节性趋势的存在。

  这是我们时间序列的 ACF。

季节性的分析才不简单,小心不要在随机数据中也分析出季节性

  我们时间系列的ACF

  这里,我们看到一些类似尖峰的区域,但是其余大多数都在圆锥体内。圆锥体外的尖峰指的是比12小得多的间隔,也就是说,当你把数据从它自身移得更远时,相关性就会降低。在我看来,时间序列的总体趋势比季节趋势对时间序列的影响要大得多。

  所以,长话短说,(不好意思,其实说来话长!)我并没有找到压倒性的证据来表明,季节性在我们的序列中扮演了很重要的角色。但尽管我什么也没发现(生活可不就是这样么?让我们勇敢对面这个屡战屡败的事实呗~),我还是认为这是一个非常有意思的分析。你也会常干这种类似的事情吗?

  via investigating-seasonality-in-a-time-series-a-mystery-in-three-parts,雷锋网 AI 科技评论编译

  雷锋网版权文章,未经授权禁止转载。详情见转载须知。

原文链接:https://www.leiphone.com/news/201811/0AejtMBSYeC91RC7.html

来源:中国人才网,转载请注明作者或出处,尊重原创!

相关文章

  • z时代钟爱的银联食神会员,如何引领消费新趋势?
    z时代钟爱的银联食神会员,如何引领消费新趋势?

    当下90后00后的年轻人正逐步成为这个时代的消费市场主力军,而他们的消费观念也不同以往刻板印象中的“大手大脚”,而是重回理性和性价比,在保证生活品质的同时,寻求更实惠的渠道。在网络信息高度发达的时代,如何利用优惠券,在有限的经济条件下追求更...

    2022-01-13 11:06:29
  • 银联优惠点亮“双旦”假日
    银联优惠点亮“双旦”假日

    双旦将至,银联“点亮假日”优惠活动又为冬日里的消费者送去跨年暖意。“天天有5折”“消费赢62元”“一块得爆品”等活动不断提升大陆地区银联用户的消费热情,“年底线上海淘”“年底澳门活动”则为跨境消费注入活力。2021年12月23日至2022年...

    2021-12-22 12:09:03
  • 和云闪付推广大使金靖一起 解锁新生代都在用的卡管理APP
    和云闪付推广大使金靖一起 解锁新生代都在用的卡管理APP

    随着移动支付的普及,给生活、消费带来种种便利之时,也带来了一些因实体卡被遗忘而引发的问题。今年下半年,多家银行表态要加速清理“睡眠卡”。 “一人多卡”时代,年轻人在银行卡管理方面存在不同程度的问题,而疏于管理的银行卡很可能会为自己的财务留下...

    2021-12-06 10:15:13
  • 2021迷你世界全国高校游戏开发者大赛颁奖典礼圆满举行
    2021迷你世界全国高校游戏开发者大赛颁奖典礼圆满举行

      11月28日,2021第九届全国高校数字艺术设计大赛(NCDA大赛)举行线上闭幕仪式,作为大赛命题赛事之一的迷你世界全国高校游戏开发者大赛也相继落下帷幕。  迷你世界全国高校游戏开发者大赛是由全国高校数字艺术设计大赛组委会、迷你创想科技...

    2021-11-29 10:55:16
  • 中小企业到底上不上RPA机器人?UB Store破解RPA实施难题
    中小企业到底上不上RPA机器人?UB Store破解RPA实施难题

      对于中小企业而言,上或不上RPA机器人,的确是个问题。  眼下,RPA已在众多大型企业中普及,而有需求的中小企业却因受限于预算及IT基础等客观条件,难以用上RPA。  中小企业为什么要实施RPA?  成功的企业似曾相似,但运营状况不好的...

    2021-10-29 14:28:50
  • 人力不足、势单力薄的中小企业如何降本增效?UB Store的RPA解决之道
    人力不足、势单力薄的中小企业如何降本增效?UB Store的RPA解决之道

      当前,令广大中小企业感之深、受之切的问题,就是如何平衡成本与效率的天平。一边是成本的不断攀升,场地、人力以及各种隐形成本一路高涨;另一边则是效率始终难有起色。  如何以最小的资源投入换取最大的效率输出,优化业务流程以提升运营效率,进而实...

    2021-10-22 09:49:41
  • UB Store科普丨企业急需实施RPA机器人的4大部门
    UB Store科普丨企业急需实施RPA机器人的4大部门

      企业由大大小小的部门组成。无论是寻求降本增效,还是数字化转型,都需要从这些部门入手。  如今,自动化的应用领域早已不再局限某一业务流程或单一区域,而是逐渐向各个部门扩展。特别是负责企业整体业务支撑的职能部门,例如人资、财务、后勤行政、采...

    2021-10-15 14:45:01
  • 纯杰•百洁精灵| 以人为本,匠心十年
    纯杰•百洁精灵| 以人为本,匠心十年

      纯杰•百洁精灵是福建省纯杰绿色科技有限公司旗下的无毒洗涤倡导品牌,专为解决日常洗涤和清洁中的痛点而来,专注清洁科研突破,一心坚持做安全放心,为用户解决烦恼的产品。  纯杰•百洁精灵的诞生充满偶然性,也是我们必然的选择。创始人日常很注重生...

    2021-10-13 10:48:15
  • 8大电商高频RPA应用场景,UB Store助力电商企业数字化转型
    8大电商高频RPA应用场景,UB Store助力电商企业数字化转型

      置身数字化环境下,电商竞争不断加剧。新信息技术的发展将决定电商的上限。  据相关机构测算,中国电商市场的HHI指数已从2018年初的60%下降至2020年初的45%左右,也就是说,电商市场的集中程度在降低,竞争于过去两年变得更加激烈。 ...

    2021-09-24 15:43:20
  • UB Store赋能智造转型,制造业企业8大部门RPA应用实录
    UB Store赋能智造转型,制造业企业8大部门RPA应用实录

           中国是制造业大国,制造业是国家经济命脉。近年来,我国制造业取得了举世瞩目的发展成就。       2012年至2020年,我国工业增加值由20.9...

    2021-09-17 14:44:13
发表评论