收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

符号序列相似性度量及聚类新算法

张豪  
【摘要】:聚类是一种无监督的机器学习方法,其广泛应用于机器视觉、信息检索和模式提取等诸多数据挖掘领域。在科研和商业应用中,符号序列数据日益增长,常见的符号序列有:生物信息学领域中的DNA序列、蛋白质序列和语音识别领域的语音序列等。因此,面向符号序列的聚类成为目前的一项热门研究。受到符号序列的非数值特性、长度差异较大及符号间存在复杂联系的影响,传统的基于数值型的相似性度量方法无法直接应用于符号序列的相似性度量,这使得符号序列聚类成为一项具有挑战性的任务。除了有效的相似性度量方法之外,符号序列聚类还需要有效的聚类算法。本文分析目前主流的符号序列相似性度量方法,分析并研究序列相似性度量方法中需要考虑和解决的问题,继而提出规范化的相似性度量方法与基于子序列全局相似度的序列相似性度量方法;针对基于单链接凝聚层次聚类存在的问题,提出基于无回路连通图的构建与划分的聚类算法,具有理论意义与重要的实际应用价值。本文的主要工作及贡献如下:1. 提出了规范化的相似性度量方法,将序列比对与规范化因子结合,其中序列比对算法反映了序列的局部与全局信息,规范化因子有效了地降低了序列的长度给序列相似度带来的偏倚。2. 针对现有的基于子序列相似度的序列相似性度量方法缺乏全局信息的问题,引入包含序列全局信息的符号熵,提出了基于符号熵的子序列相似性度量方法,在此基础上,提出了基于动态规划的序列相似性度量方法。3. 针对广泛应用于符号序列聚类的单链接凝聚层次聚类算法存在的缺点,提出了基于无回路连通图的构建与划分的聚类算法,新的聚类算法与上述两个序列相似性度量方法分别结合而成符号序列聚类的两个新算法,有效地提高了聚类精度。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 张豪;陈黎飞;郭躬德;;基于符号熵的序列相似性度量方法[J];计算机工程;2016年05期
2 仝朝阳,石教英;一种关于布尔模式的相似性度量及其应用[J];计算机研究与发展;1996年08期
3 史战红;连玉平;巩增泰;;基于包含度的粗糙集间的相似性度量[J];数学教学研究;2008年02期
4 李涛;汪光阳;;标准相似性度量及其应用[J];山西师范大学学报(自然科学版);2016年04期
5 韩建超;史忠植;;类比推理与学习的研究[J];计算机工程与应用;1988年01期
6 江诗锋;何振峰;;一种基于权重的时间序列相似性度量[J];计算机应用与软件;2010年09期
7 林燕清;傅仰耿;;基于改进相似性度量的扩展置信规则库规则激活方法[J];中国科学技术大学学报;2018年01期
8 贺玲;蔡益朝;杨征;;高维数据的相似性度量研究[J];计算机科学;2010年05期
9 段立娟,高文,林守勋,马继涌;图像检索中的动态相似性度量方法[J];计算机学报;2001年11期
10 李年攸;;基于等价类的图像相似性度量[J];三明学院学报;2006年04期
11 孙金礼;陈杰;邓敏;;线状空间数据传输的几何相似性度量算法与实验分析[J];地球信息科学学报;2011年05期
12 张建业;潘泉;张鹏;梁建海;;基于斜率表示的时间序列相似性度量方法[J];模式识别与人工智能;2007年02期
13 张晚笛;陈峰;王子甲;汪波;王挺;;基于多时间粒度的地铁出行规律相似性度量[J];铁道学报;2018年04期
14 王竹婷;夏竹青;周艳玲;;动态混合相似性度量下的协同过滤推荐算法[J];合肥学院学报(综合版);2016年04期
15 占渊;肖蓉;缪仲凯;周双娥;;基于改进的协同过滤相似性度量算法研究[J];计算机测量与控制;2017年09期
16 孙达辰;孙迎燕;周广群;;不等长子时间序列的相似性度量方法[J];计算机时代;2011年05期
17 陈占龙;吴亮;谢忠;张丁文;;利用约束满足问题进行多洞面实体相似性度量[J];武汉大学学报(信息科学版);2018年05期
18 贺玲;吴玲达;蔡益朝;;高维空间中数据的相似性度量[J];数学的实践与认识;2006年09期
中国重要会议论文全文数据库 前10条
1 李新光;郑君君;祝一薇;刘建军;夏胜平;谭立球;;基于属性图模型的图像相似性度量[A];第十五届全国图象图形学学术会议论文集[C];2010年
2 白翔;;基于多特征流形结构互补性挖掘的相似性度量融合方法[A];2015年中国自动化大会摘要集[C];2015年
3 李彬彬;罗乐;;基于信源学的光谱相似性度量方法的比较研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
4 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
5 周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
6 兰妥;江弋;张东站;;基于ESAX表示的时间序列相似性度量[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 何昕;谢志鹏;;基于简单树匹配算法的Web页面结构相似性度量[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 杨明;杨萍;吉根林;;分布式环境下的隐私保持数据库相似性度量[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 罗阳;赵伟;;相似性度量研究及最优相似系数[A];中国气象学会2008年年会天气预报准确率与公共气象服务分会场论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 迟荣华;不确定时间序列相似性非参数度量方法研究[D];哈尔滨工程大学;2018年
2 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
3 王鹏;基于稳定层次空间形态的道路网匹配[D];中国地质大学;2017年
4 朱进;基于运动特征的轨迹相似性度量研究[D];南京师范大学;2015年
5 陈晓;网络中顶点间相似性度量方法研究[D];燕山大学;2017年
6 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年
7 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
8 李海林;时间序列数据挖掘中的特征表示与相似性度量方法研究[D];大连理工大学;2012年
9 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
10 胡洋;最大间隔方法及其在图像检索中的应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 张豪;符号序列相似性度量及聚类新算法[D];福建师范大学;2015年
2 胡晓静;基于特征点的颅面相似性度量算法研究[D];西北大学;2018年
3 王泽源;考虑用户满意度的云服务排序推荐方法研究[D];合肥工业大学;2018年
4 刘国明;基于相似性度量的行人重识别算法研究[D];广州大学;2018年
5 周紫桑;基于链接分析的期刊引用网络节点相似性度量[D];清华大学;2017年
6 王盼;基于过程主干约束的轨迹相似性度量方法与应用[D];南京航空航天大学;2018年
7 李玲;基于句子相似性度量的中文自动响应问答系统的研究与实现[D];陕西师范大学;2017年
8 黄义棚;基于相似性度量的人脸性别识别技术研究[D];北京邮电大学;2018年
9 邓楠洁;基于数据依赖的高维大数据相似性度量方法研究[D];北京邮电大学;2018年
10 贾小贝;基于Petri网的业务流程行为相似性分析方法研究[D];安徽理工大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978