分类
外汇视频教程

介绍时间序列数据和常见的金融分析方法

下载: 全尺寸图片 幻灯片

什么是预测?

Amazon Forecast 是一项基于机器学习的完全托管式时间序列预测服务,专为业务指标分析而构建。使用 Amazon Forecast 无需具备任何机器学习经验。您只需要提供历史数据,以及您认为可能会影响预测结果的任何其他数据。提供所有数据后,Amazon Forecast 会自动检查数据并确定有意义的数据。然后,Amazon Forecast 会生成一个预测模型,与只关注时间序列数据的模型相比,它可以将预测的准确性提高约 50%

立即开始免费创建 Amazon 账户,享受 AWS 免费套餐。对于使用 Amazon Forecast 的前两个月,AWS 新客户每月可收到高达 1 万次的时间序列预测生成;每月数据存储高达 10GB;每月训练高达 10 小时。

时间序列预测的常见方法及思考

基于统计学的传统时间序列预测方法,优点是复杂度低、计算速度快。但是有其局限性,通过对业界方法的调研与自己的实验,我们发现由于真实应用场景的复杂多样性(现实世界的时间序列往往受到各种不同因素的限制与影响,而难以预测),比如受到营销计划、自然灾害等的影响,传统的单一统计学模型的准确率相对来说会比机器学习差一部分,而机器学习模型或者更复杂的 ensemble 集成模型会有更好的效果。但传统时间序列预测模型也有其重要的意义,比如说:

  • 可以作为预测的baseline model,为项目提供一个准确率的基准线,来帮助评估其他模型的提升。
  • 前置清洗作用,时序模型由于其较好的可解释性,可以帮助剔除一些异常值,比如因服务器故障或者业务线逻辑调整产生的异常值。
  • 作为集成模型中的一块,参与时序集成模型的训练。
  • 可以提供一个预测结果的合理的范围,因为话务量通常不会短时间内激增。使用这个合理的范围,在黑盒模型最后输出结果时,帮忙进行后置校准,从而使预测系统更加稳定。

2.3 机器学习模型

一般采用的是 xgboost 或者 lightgbm 的方法,现在业界也被广泛应用,这里就不多做介绍了。树模型的一个好处就是,相对于以上的方法,能更方便地添加一些 category 类的特征比如:是否季节末、是否公共价格、是否营业时间等。

  • 离散类时间特征:年月日时分数,周几,一年中的第几天,第几周,一天中的哪个时间段等
  • 判断类时间特征:是否调休,是否周末,是否公共假期等
  • 滑窗类时间聚合特征:过去X天平均值,过去X天方差,过去X天最大值,过去X小时四分位数,过去X天偏态系数等
  • 其他时序模型的预测值作为特征:ARIMA、SARIMA、指数平滑等
  • 其他相关业务线数据的引入:比如对于售后业务线,引入售前业务线/预定业务线等数据,帮忙进行售后业务线的预测

2)神经网络模型

常见的利用神经网络技术来做时间序列预测的方法有有 CNN、RNN、LSTM、GRU 等。

相对于传统的树模型需要人工构建相关模型特征,神经网络模型通常需要喂入大量的数据来进行训练,因此如果同类时序的数据量够多(有够多彼此间相关性较强的时序),那么训练一个通用型的端对端的神经网络预测有时也有不错的效果,比如使用 LSTM 一方面可以较容易地整合外部变量,另一方面 LSTM 有能较好地自动提取时序特征的能力。

在某条业务产线上,我们针对多城市的数据进行建模,训练了一个灵活单一通用的端对端 LSTM 时间预测模型。具体在训练时,输入数据一方面包括了时间序列相关的数据,另一方面也包括了天气、节假日等外部变量,同时使用了 encoder-decoder 来帮助提取时序特征,在 T+14 的主要大城市时序预测上有较大的提升,达到日 95%+的准确率。

三、一些经验与思考

1)训练测试数据的划分

2)一线业务人员经验的使用

在做一些时间序列预测场景时,我们发现一线业务人员经验是极其宝贵的,比如说一些抚平/剔除业务异常数据的经验,他们会知道在历史数据里哪些时间段的数据是异常的原因是什么,比如各种事件会对不同的业务线产生什么样的影响、一些预测偏差较大的原因可能是什么。这些宝贵的经验可以转化成时间序列历史数据清洗的规则或者是一些时间序列数据校准的 Knowledge Base。

3)利用能反映未来的信息

4)如何保证输出结果的稳定性

5)重新训练模型的频率

通常,当有新数据获得时,重新训练模型来进行预测,整体来说在每个时间戳能给出更好的预测结果。如果生产上准备采取这种思路的话,在训练的时候也要用相同的重新训练的方法,来评估哪种模型效果最好,即采用 sliding window / expanding window 的方法去在每个时间戳重新训练预测和记录误差来进行模型评估。当然这样计算量会比较大,比较适合单一产线并且对准确率较为看中的场景。

介绍时间序列数据和常见的金融分析方法

小波分析以其良好的时频局域化特性,受到众多科学家和工程人员的青睐,在图像处理、模式识别、地质勘探、医学成像诊断、数值计算等各个方面都有不俗地表现。近年来,小波分析开始被引入经济与金融领域,作为处理经济金融时间序列数据的工具。 金融时间序列是经济与金融领域中最重要的数据,包括债券、汇率、股票价格和金融期货价格等等,对这类数据进行分析、预测是整个经济和金融活动的重要工作。 本文以金融时间序列为研究对象,采用小波分析和神经网络相结合的组合模型对其进行分析和预测,并使用上证综合指数进行建模和预测,取得了良好的建模效果。 本文首先从金融时间序列分析的理论发展过程对论文的选题依据进行了说明,对时间序列研究的发展历史做出了回顾,总结出研究时间序列的两大类方法:计量模型法和数据挖掘法,并讨论了两种方法各自的优势和劣势。然后简要介绍了数据挖掘的原理,紧接着着重介绍了神经网络的理论基础以及在使用神经网络进行建模过程中要注意的问题。 接下来对小波理论进行了介绍,讨论了连续小波、离散小波的特点和各自的使用场合。并给出了常见小波函数的性质和特征,以及离散小波分析中的常用算法:Mallat算法和多孔算法。 最后使用上证综合指数进行建模:首先利用小波变换对是上证综合指数进行分解,得到尺度变换序列和各级小波变换序列,然后对尺度变换序列使用ARMA模型进行拟合,对小波变换序列使用神经网络进行拟合,最后用小波重建技术将各个模型的结果加总。我们使用这个模型对上证综合指数进行了预测,并和普通BP神经网络模型的预测结果进行比较,取得了良好的预测效果。

kns.cnki.介绍时间序列数据和常见的金融分析方法 net dspace.xmu.edu.cn (全网免费下载)

dspace.xmu.edu.cn (全网免费下载)

介绍时间序列数据和常见的金融分析方法

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

介绍时间序列数据和常见的金融分析方法
姓名
邮箱
手机号码
标题
留言内容
验证码

shu

LI Hailin, ZHANG Liping. Summary of Clustering Research in Time Series Data Mining[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 416-424. doi: 10.12178/1001-0548.2022055

shu

时间序列数据挖掘中的聚类研究综述

doi: 10.12178/1001-0548.2022055

华侨大学信息管理与信息系统系 福建 泉州 362021

华侨大学应用统计与大数据研究中心 福建 厦门 361021

作者简介:
通讯作者: 李海林,E-mail:[email protected]

中图分类号: TP273

Summary of Clustering Research in Time Series Data Mining

  • LI Hailin 1, 2 , , ,
  • ZHANG Liping 1

Department of Information Management and Information Systems, Huaqiao University Quanzhou Fujian 362021

Research Center for Applied Statistics and Big Data, Huaqiao University Xiamen Fujian 361021

摘要: 鉴于时间序列数据的高维性和复杂性给数据挖掘带来的困扰以及聚类分析在时间序列数据挖掘领域中的重要性,对目前该领域国内外相关时间序列数据聚类研究的状况进行综述。时间序列聚类总体上可分为整体时间序列聚类、子序列聚类和时间点聚类3种,分别从特征表示、相似性度量、聚类算法和簇原型等方面来研究,同时也结合了具体的应用分析。根据时间序列数据挖掘中聚类存在的主要问题,提出了部分未来值得关注和研究的内容和方向,以便更好地促进时间序列数据聚类分析的研究与发展。

Abstract: In view of the high dimensionality and complexity of time series data bringing trouble to data mining and the importance of clustering analysis in the field of time series data mining, this paper summarizes the research status of time series data clustering at home and abroad. Time series clustering can be divided into the whole-time-series clustering, the subsequence clustering, and it can be studied from the aspects of feature representation, similarity measurement, clustering algorithm and cluster prototype, as 介绍时间序列数据和常见的金融分析方法 well as the specific applications analysis. According to the main problems existed in the time series clustering, this work proposes some contents and directions that are worthy of being researched in the future. All the work is to better promote the research and development of time series data clustering.

    Key words:
  • clustering analysis /
  • data mining /
  • high dimensionality /
  • time series /
  • time series clustering

图 1 两种方法对整体时间序列数据层次聚类

下载: 全尺寸图片 幻灯片

图 2 时间序列数据聚类的主要研究问题

下载: 全尺寸图片 幻灯片

图 3 欧氏距离与动态时间弯曲度量

下载: 全尺寸图片 幻灯片

图 4 簇平均代表序列

下载: 全尺寸图片 幻灯片