时间序列表示是时间序列挖掘的一个基础和关键问题。对当前出现的各种典型的时间序列表示方法进行了综述,对各自的特点从多个角度进行了比较研究。结果说明,大部分时间序列表示方法将时间序列降维,且都与应用领域紧密相关,在实际构建系统时仍需对各种表示方法按照实际需求进
的序列区段Cs是在T中从点ts开始,数量为w(1≤w≤n)个连续位置点所组成的T的一个抽样,即
Cs=ts,ts+1,...,ts+w 1,
其中1≤s≤n w+1。
时间序列区段一般通过在T上给定一个滑动窗口(窗口大小为w) 获得。
实际生活中的时间序列都具有很长的长度,一般对于长度为n的时间序列可以看作是n维向量空间中的一个点,为了便于查找,可以首先利用R tree,R* tree, k-d tree, skyline index[9]等多维索引机制将这些点索引,然后查找则首先在索引上进行。不幸的是,由于目前现存的多维索引方式普遍仅对8-10维空间中的点比较有效,对于更高维的数据索引则将会导致索引性能的急剧下降,即引发所谓的“维度灾难”(Dimension Curse)问题[4][16]。
为了解决维度灾难问题,一般的做法是对时间序列数据进行降维处理,然后再对降维后的数据进行索引,对原始数据进行降维处理后,在索引空间的查找可能出现两类问题[25]:
(1)漏查(False Dismissal):在原始数据(T)中两点距离小于给定的阈值ε,但是在索引空间(T)中的该两点距离却大于ε,从而对索引空间的点查询时发生漏查,即
ti,tj∈T,ti,tj∈T,ε>0,
D(ti,tj)<ε Dindex(ti,tj)≥ε(1)
(2)错查(False Positive):在索引空间(T)中的两点距离小于给定的阈值ε,但是在原始数据(T)中该两点距离却大于ε,从而对索引空间的点查询的结果中出现错查,即
ti,tj∈T,ti,tj∈T,ε>0,
Dindex(ti,tj)<ε D(ti,tj)≥ε(2)
对于错查问题,可以通过针对索引空间中的查询结果再次到原始数据空间中查询,剔除其中D(ti,tj)≥ε的点来解决,由于在索引空间中查询时已经剔除了大量不符合条件的点,只保留了原时间序列数据集合中一个很小的子集,所以再次在原始数据空间中查询时的耗费是可以接受的。漏查问题则决定了是否能够对时间序列进行有效的相似性查找,为了能够解决这个问题,Faloutsos等人在文献[7]中给出了降维下界定理(Lower Bounding),即:
Dindex(T,C)≤D(T,C). (3)
于是很多时间序列表示方法都侧重于首先对时间序列进行降维处理。
3 各种典型的时间序列表示方法
在研究初期提出对时间序列进行DFT(Discrete Fourier Transform,离散傅立叶)变换[1][13],然后用DFT的前k个系数作为原时间序列的表示,其底层的理论依据是数字信号处理领域的Parseval定理,该定理保证了时间序列数据的DFT变换前几个系数中保存了序列中大部分能量。在实际应用中,DFT变换对于自然产生的时间序列信号较为适合,但是对于其他来源的时间序列数据则效果不佳。
随后出现了DWT(Discrete Wavelet Transform,离散小波变换)[4][23],其中研究最多的是Haar小波变换,并用Haar变换的系数作为时间序列的表示。Haar小波变换的基函数不平滑,对时间序列的表示近似类似于梯形的结构,导致其对于一段很短的时间序列数据进行变换都会产生大量的系数。
- 2 -
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库时间序列表示进展及比较研究时间序列挖掘建模环境(2)在线全文阅读。
相关推荐: