收藏本站
《合肥工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

带有通配符的序列模式挖掘研究

谢飞  
【摘要】:实际应用领域中产生了大量的序列数据,例如:超市顾客购买数据、信用卡交易记录、电信数据、DNA和蛋白质序列、文本数据等,这些序列数据中隐含着丰富的有价值的知识亟待挖掘。序列模式挖掘,旨在从序列数据库中挖掘频繁出现的序列模式,已成为数据挖掘领域中一项非常重要的研究任务。然而,模式的出现并不都是连续的,模式中每两个连续字符之间可能含有灵活的通配符。例如,在生物序列中,模式的相邻字符之间可能插入或删除较短的序列片段。因此,带有通配符的序列模式挖掘研究不仅具有理论上的研究价值,而且在文本挖掘、生物信息学、传感器网络等领域都有着巨大的应用价值。 本文围绕带有通配符的序列模式挖掘及其在文本领域中的应用开展研究,研究内容涉及三个方面:(1)定义同时具有间隔约束和one-off条件的带有通配符的序列模式挖掘问题;(2)带有通配符的序列模式挖掘算法设计与分析;(3)将提出的带有通配符的序列模式挖掘算法应用在文本领域,利用挖掘的文本模式分析词语之间的语义关系,抽取出关键词。 主要研究内容和创新之处如下: (1)带有通配符的序列模式挖掘问题定义。给定序列S,用户定义的间隔约束g,以及最小支持度阈值min_sup,从序列S中挖掘同时满足间隔约束和最小支持度的频繁序列模式,并且要求模式在序列中的出现满足one-off条件,即模式的任意两次出现都不共享序列S中同一位置的字符。针对这一问题,提出一种基于宽度优先搜索的带有通配符的序列模式挖掘算法One-off Mining,基于一遍扫描技术计算模式在序列中同时满足间隔约束和one-off条件的支持度,利用Apriori性质,由长度为k-1的频繁模式进行连接,生成长度为k的候选模式。实验结果表明,One-off Mining算法在挖掘更多的频繁序列模式情况下,时间效率得到了显著地提高。 (2)提出一种基于模式扩展的带有通配符的序列模式挖掘算法MAIL,利用前缀模式的出现信息,构造扩展模式的候选出现空间,有效地降低了模式挖掘过程中产生的候选模式的规模,同时避免了每次计算模式支持度时都需要重复扫描序列。设计了两种对候选模式出现进行有效约简的剪枝策略:最左优先剪枝和最右优先剪枝,讨论了两种剪枝策略对带有通配符的序列模式挖掘算法性能的影响。实验结果表明,MAIL算法能进一步提高解的完备性和算法的时间效率。 (3)在MAIL算法基础上,提出一种层次有向无环图数据结构,能在多项式时间和空间复杂度内,构造和存储指数量级的模式的候选出现,利用深度优先搜索策略对层次有向无环图进行遍历,计算模式的支持度。从理论上证明,基于层次有向无环图的带有通配符的序列模式挖掘算法,在模式扩展过程中不会丢失解,在对图进行深度遍历计算模式支持度时,能够获取模式的优化解。从实验角度验证基于层次有向无环图的序列模式挖掘算法计算出的解接近最优解的精度达到90%以上。 (4)基于文本模式的关键词抽取研究,将带有通配符的序列模式挖掘算法应用在文本挖掘领域的关键词抽取任务中。针对文本序列数据库具有的长序列、大字符集等特性,将基于层次有向无环图的MAIL算法进行了改进,以提高文本序列模式挖掘的效率。从文本序列中挖掘带有通配符的词语序列模式,分析词语之间的语义关联性。利用机器学习分类算法对获取的词语模式特征进行学习,构造关键词抽取模型,讨论了不同的模式特征对关键词抽取算法性能的影响。实验结果表明,词语的模式特征能够提高抽取关键词的质量,并且不受具体语言和知识库的限制。提出一种基于词汇链的新闻网页关键词抽取方法,利用知识词典HowNet获取词语语义知识,借助词汇链模型计算词语在文档中的重要度,提高新闻网页关键词抽取的凝聚性。
【学位授予单位】:合肥工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 李永忠;孙彦;罗军生;;WINEPI挖掘算法在入侵检测中的应用[J];计算机工程;2006年23期
2 刘俊侠;;使用有向图挖掘时间间隔序列模式[J];计算机科学与探索;2008年06期
3 黄小红;陈丽华;王倩;戴昕;;多属性约束事件序列的关联规则挖掘方法[J];微计算机信息;2009年03期
4 师鸣若;;基于邻接序列模式挖掘的网络流量分析[J];电脑开发与应用;2010年10期
5 汪永旗;张军;;序列模式挖掘在旅游行程分析中的应用研究[J];微计算机信息;2011年03期
6 周晔,杨天奇;一种基于置信度的异常检测模型与设计[J];计算机仿真;2005年01期
7 陶再平;俞瑞钊;;序列模式增量式更新的快速算法[J];计算机应用;2006年S2期
8 倪志伟;叶红云;曹欢欢;;基于均值约束满足度剪枝策略的高效序列模式挖掘算法[J];中国科学技术大学学报;2007年02期
9 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
10 俞单庆;吉根林;;基于数据流的序列模式挖掘算法[J];江南大学学报(自然科学版);2007年06期
中国重要会议论文全文数据库 前10条
1 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 运正佳;李轶男;杨晓春;;支持带有通配符的字符串匹配算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
5 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 李国良;冯建华;塔娜;周立柱;;TwigStar——快速处理XML Twig查询中含通配符*的算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 刘琪;牛文静;顾兆军;;基于API调用序列的恶意代码动态分析方法研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 李久佳;通配符的魔力[N];电脑报;2004年
2 江苏 王志军;“替换”的应用技巧[N];中国电脑教育报;2007年
3 广东 子衿;认识Linux中的符号[N];电脑报;2004年
4 ;DOS简单学③[N];电脑报;2003年
5 大河之舞;快速纠正英文“语法”错误[N];中国电脑教育报;2009年
6 李学昌;老树新花说DOS③[N];中国电脑教育报;2004年
7 金延强;批量下载动画片[N];中国电脑教育报;2002年
8 杰子;在Word文档“替换”时重排内容[N];中国电脑教育报;2003年
9 张琦;Windows磁盘管理的7种武器[N];中国计算机报;2007年
10 李学昌;老树新花说DOS⑥[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
2 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
3 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
4 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
5 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
6 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
7 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
8 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
9 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
10 单莘;基于知识发现的告警相关性分析关键问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 王永强;基于DF2Ls的序列模式挖掘研究[D];兰州大学;2011年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
4 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年
5 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
6 梁伟;Web使用挖掘在电子商务推荐系统中的应用研究[D];天津大学;2004年
7 管恩政;序列模式挖掘算法研究[D];吉林大学;2005年
8 仇大伟;基于序列数据库的数据挖掘系统的设计和研究[D];山东科技大学;2005年
9 郭跃斌;基于序列模式的正负关联规则挖掘技术[D];山东轻工业学院;2008年
10 刘磊;基于序列模式挖掘的入侵检测算法的研究[D];中国科学技术大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026