收藏本站
收藏 | 论文排版

基于隐马尔可夫模型的时间序列聚类的研究

姚世通  
【摘要】:隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率模型,它假定观测序列是由包含若干隐状态的马尔可夫过程产生的。HMM在语音、手写体、运动轨迹识别和生物信息学等领域有着广泛的应用。基于该模型的时间序列数据聚类算法有两个显著的优点:1)适用于不等序列长度甚至缺失某一时刻观测值的时间序列。2)能够利用时间序列隐含的属性(马尔可夫性)来提高聚类精度。近年来,基于HMM的聚类算法的研究大部分是基于实际应用,而对其准确性和健壮性的研究较有限。本文提出一种基于概率模型的聚类算法——通过计算时间序列在不同HMM参数下的后验概率分布的Kullback-LeiblerDivergence(KLD)来构建相似度矩阵,并将该矩阵用作谱聚类算法的输入。 与大部分现有的基于HMM的聚类算法不同,本文采用KLD来度量时间序列对之间的相似度。KLD作用于整个模型参数空间,更充分地利用了概率模型中的信息。在人工和实际数据集上的实验结果表明,该算法在同等条件下相比基于其他距离度量(如互匹配值)的算法具有更高的聚类精度。另一方面,谱聚类算法通过特征向量分解能有效去除时间序列数据中噪声的影响,该算法相比传统聚类算法(如K-Means),在加入内源性噪声和外源性噪声的人工数据上表现出更好的健壮性。本文的主要贡献包括: (1)研究了距离度量函数以及特征向量分解对聚类精度的影响。以往基于HMM的算法大部分采用互匹配值、BP距离等来度量时间序列间的距离,这些度量函数虽然具有一定的合理性,但是它们只利用了特定时间序列对之间的概率信息,而没有考虑全局概率空间。这种度量的局部性会导致最终聚类准确度的降低。另外,当附加在时间序列数据上的噪声等级上升时,传统的聚类算法,如K-Means、层次聚类等的准确性将明显下降。本文通过引入KLD和谱聚类有效解决了上述两个问题。 (2)研究了隐状态数对聚类精度的影响。在HMM的应用中,隐状态数通常是预先设定的。虽然对于某些马尔可夫过程,隐状态有明确的意义(如语音识别中通常认为隐状态表示音节),但是对于更多的时间序列数据,很难赋予隐状态物理意义。本文对不同隐状态数目下的聚类精度做了研究,发现聚类精度随隐状态数不单调地变化,当模型过度拟合时,聚类精度反而会下降。并且,模型的训练时间将随隐状态数的增加而平方级增加。 (3)研究了学习聚类数目的方法。通常聚类的类别数是预先设定的。但是在实际应用中,数据集的类别数往往无法预知,这就需要一种衡量聚类质量的标准来选出最优聚类数。本文采用α值来衡量聚类质量,这种度量不仅能使类内相似度最大,而且可以防止极少数样本点划分为一类的现象。实验结果表明,这种度量方法能找到正确的聚类数。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李晓雪;徐文;金丽玲;李建龙;;联合宽带到达方向估计和语音特征增强的传声器阵处理方法[J];声学学报;2011年04期
2 王明春;冯嘉毅;凌光;;基于矩阵变换的聚类集成优化模型[J];数学的实践与认识;2011年12期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 费玉莲;凌云;王勋;;基于增强隐马尔可夫模型的视频数据挖掘研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
3 马勇;金赟;顾明亮;赵力;;基于隐马尔可夫模型的汉语方言辨识[A];2009’中国西部地区声学学术交流会论文集[C];2009年
4 徐东风;周萍;景新幸;;改进隐马尔可夫模型的非线性分段技术应用[A];中国声学学会2007年青年学术会议论文集(下)[C];2007年
5 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 计天颖;王作英;陆大金;;有限命令集连续语音识别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
7 林文永;石志国;薛为民;陈锋军;;隐马尔可夫模型实现语音和视频识别[A];第一届学生计算语言学研讨会论文集[C];2002年
8 郁正庆;戴蓓倩;张劲松;王长富;;语音模糊观察序列应用于隐马尔可夫模型快速训练的方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
9 马晓川;刘冬;赵荣椿;;孤立短语隐马尔可夫模型自动建模软件的实现[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 杨文强;邓明华;钱敏平;;隐马尔可夫模型与剪切位点识别[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
中国博士学位论文全文数据库 前10条
1 李杰;隐马尔可夫模型的研究及其在图像识别中的应用[D];清华大学;2004年
2 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
3 刘小军;人脸识别技术研究[D];中国科学院电子学研究所;2001年
4 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
5 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
6 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
7 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
8 赫泉玲;多元小波的构造、提升及其应用[D];吉林大学;2005年
9 丁明石;基于移动通信技术的远程实时心电监护系统设计[D];天津大学;2005年
10 周韶园;基于HMM的统计过程监控研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 姚世通;基于隐马尔可夫模型的时间序列聚类的研究[D];上海交通大学;2011年
2 任振刚;基于SAPI引擎的语音交互方法的研究与实现[D];沈阳工业大学;2005年
3 刘波;基于隐马尔可夫模型的系统调用异常检测系统[D];兰州大学;2006年
4 余浩;说话人识别的自适应算法研究[D];武汉理工大学;2005年
5 凌广杰;基于分段半马尔可夫模型的在线序列模式检测方法研究[D];浙江大学;2006年
6 纪灵军;隐非齐次马尔可夫模型的混合性[D];江苏大学;2008年
7 张军;基于MFCC的语音识别加速技术研究[D];北京化工大学;2009年
8 朱义鑫;基于网络的隐马尔可夫异常检测技术研究[D];新疆大学;2005年
9 徐欣;基于HMM的中医临床疗效评价分析研究[D];北京交通大学;2009年
10 闫三锋;基于单片机语音识别系统设计[D];西北工业大学;2004年
中国重要报纸全文数据库 前3条
1 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
2 晓业;TTS提升基金CIC服务[N];计算机世界;2002年
3 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978