时间序列表示是时间序列挖掘的一个基础和关键问题。对当前出现的各种典型的时间序列表示方法进行了综述,对各自的特点从多个角度进行了比较研究。结果说明,大部分时间序列表示方法将时间序列降维,且都与应用领域紧密相关,在实际构建系统时仍需对各种表示方法按照实际需求进
SVD(Singular Value Decomposition,单值分解)变换技术[22],采用KL分解的技术来实现时间序列数据的降维处理。这种技术的劣势在于其依赖于数据,由于使用数据集来产生新的基向量,因此数据项的任何改变都需要重新进行计算。
PAA(Piecewise Aggregate Approximation,滑动平均聚集近似)方法[16][24],在时间序列上滑动一个大小固定的滑动窗口,并计算滑动窗口中数据的均值作为整个窗口内数据的表示。这种方法利用了时间序列在短期内数据变化不大的特性,能够在一定程度上实现时间序列的有效降维。但这种方法具有如下的不足:1)滑动窗口的大小是一个关键的因素,实际中需要根据时间序列数据仔细选取;2)利用求均值的方法对时间序列进行平滑处理,可能会丢失时间序列中的极值等特征信息;3)PAA没有考虑到时间序列数据的随着时间推进对于未来数据大小的参考价值越来越大的性质,它对每段时间序列都同等对待[29]。
APCA(Adaptive Aggregate Constant Approximation,自适应平均聚集常量近似)方法[17],将时间序列分段成为一系列变长的子段,每一子段用该子段中数据均值以及时间点右端值组成的二元组表示。相比较PAA方法,它克服了要求滑动窗口大小唯一的限制。但它具有如下不足:1)同等条件下,它需要2倍于PAA方法的存储量;2)在进行查询时需要对查询串采取同样长度的分解;3)对长度为n的时间序列完成N段精确的APCA表示,需要O(Nn)时间复杂度,优化以后仍需O(nlog(n)),在时间序列流的情形下则不适合。
PLA(Piecewise Linear Approximation,分段线性近似)[7][26]方法首先将时间序列分段,然后2利用线性拟合函数进行近似表示。这种方法的缺陷主要是计算复杂性较高,对长度为n的时间序列完成N段最优的分段拟合需要O(nN)的时间复杂度。虽然有很多的优化方法[20],但是仍难以满足实用的要求。
文献[28]中提出一种维约简的方法PRA(Piecewise Regression Approximation,逐段回归近似)的方法,该方法对时间序列滑动窗口中的数据计算回归系数,并利用回归系数作为窗口内数据的表示。它的结果对均值平稳的独立噪声干扰不敏感,较PAA方法在进行相似性查找时准确度更高。但该方法的表示结果难以为人所直观理解。
文献[27]中提出一种基于向量空间{1,t,...,t}的多项式拟合的方法,利用拟合的系数作为时间序列表示,这种方法过于复杂,在实际应用中求解将会出现困难。
普通的时间序列都是离散的数值型数据,研究过程中也出现了将数值型数据量化形成字符串形式,然后采用常用字符串匹配操作[2][3](如Hash,Markov模型,Suffix Tree)等相对成熟技术的方法。
文献[19]中提出一种Clipper Data方法,将时间序列进行“过零”量化成一串对应的二进制数串,利用二进制的算术运算来完成比较。这种方法对时间序列的数值量化过于简单,虽然采用了二进制压缩技术,但是实际中仍会出现大量冗余数据。
文献[11]中提出一种SAX(Symbolic Aggregate approXimation,符号聚集近似)的时间序列表示方法,该方法首先采用PAA对时间序列进行时间轴向分段,然后根据正态分布,对数据轴向量化,量化后的结果利用查表方法确定相应段的字符串,从而完成时间序列的符号化。该方法被应用于时间序列的模式抽取和可视化中[10][12]。不同于一般的等值量化方法,它假设数据呈现正态分布,采用的是不等值量化方法。但是这种方法有如下不足:1)采用PAA对时间序列进行分段,无法克服PAA方法的缺陷;2)对数据的随机分布具有硬性规定;3)实际应用中字符串编码规则仍然需要仔细确定。 在时间序列相似问题的研究过程中,一些研究人员独辟蹊径,他们不是从整个时间序 - 3 -n2
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库时间序列表示进展及比较研究时间序列挖掘建模环境(3)在线全文阅读。
相关推荐: