收藏本站
《西北工业大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘技术的研究及应用

冯红伟  
【摘要】: 在经济、商业、自然科学和社会科学等领域,很多数据是以时间序列的形式出现的。时间序列数据库描述、存储时间序列数据并提供各种查询操作,通常这些操作都是基于序列元素的值或者时间坐标进行的,无法实现对序列数据库中所蕴含知识的查询。把数据挖掘技术应用于时间序列数据库能够发现时间序列数据库中所蕴涵的模式,进而扩展时间序列数据库的查询能力。 时间序列挖掘包括规则发现、周期模式挖掘、序列模式挖掘和相似性查询,其中,时间序列的相似性查询是时间序列挖掘的一个重要方面。本文研究了基于序列变化模式的相似性查询方法,包括序列变化模式的表示、全序列查询、子序列查询、序列数据的聚类以及基于簇的序列查询,提出了完整的基于序列变换模式的相似性查询方法,主要的研究内容和研究成果如下: 1.提出了基于序列变化模式的子段表示方法。该方法以指定区间内的显著点作为子段的端点,通过指定显著性区间的大小,用户能够直观地控制序列的划分粒度,实现对序列数据库相同粒度的子段划分。该方法具有较好的稳定性和一致性。 2.为了度量序列模式的相似性,定义了顺序映射来描述序列变化模式之间的对齐,将序列映射路径上的模糊相似性距离作为两个序列之间的相似性度量。该距离与序列的长度无关,能够消除序列变化模式在时间轴上的差异对相似性度量的影响,更好地表示序列之间的相似性。 3.提出了基于抽样过滤的全序列查询方法。在保持序列变化模式的前提下,使用抽样点来计算序列之间的DTW距离,并依据抽样比率和查询参数选择过滤距离对序列数据库进行过滤,实验结果表明,抽样过滤的方法明显提高了查询效率。 4.提出了基于模式的子序列查询方法。通过将序列变换为相对序列,实现了对序列中任意位置、任意长度子序列的规范化;为了提高查询效率,将相对序列的特征向量进行离散化分类,并使用后缀树进行索引。该方法能够对不同取值范围、不同长度的子序列进行有效的查询,实现了对序列数据库在不同划分粒度下的模式查询。 5.给出了基于相似性距离的序列聚类方法。该方法在聚类过程中使用相对 西北工业大学博士学位论文 距离以消除簇的分布特征对聚类的影响,实现了正确的聚类次序。在聚 类的厂始阶段,使用随机选取的种于点对簇进行初始化,减少了层次聚 类初始簇的数目,提高了聚类效率。聚类结束后,使用簇的内聚性和相 异性对聚类的质量进行评估。 6.实现了基于簇的序列查询方法。根据序列数据库的聚类结果,将序列数 据库划分为若干层次的簇结构,通过对查询序列进行k-最邻近分类,确 定查询序列所属的簇,然后在相应的簇中执行相似性查询,实验结果表’ 明,基于簇的查询显著提高了查询效率。 7.设计并实现了时间序列查询的原型系统,对上述方法进行了验证。
【学位授予单位】:西北工业大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:TP311.12

【相似文献】
中国期刊全文数据库 前10条
1 李招远,丁振国;一个基于投影的Web访问序列挖掘算法[J];情报杂志;2004年08期
2 邰滢滢,陈小惠;基于模糊聚类的数据关联融合算法[J];华东船舶工业学院学报(自然科学版);2003年06期
3 卢晓东;周凤岐;;改进模糊马尔可夫随机场的SAR图像分割[J];宇航学报;2008年05期
4 刘俊侠;;使用有向图挖掘时间间隔序列模式[J];计算机科学与探索;2008年06期
5 片兆宇;房震宇;;一种新的图像分割方法[J];科技资讯;2006年28期
6 片兆宇;房震宇;;一种新的图像分割方法[J];科技咨询导报;2006年20期
7 毛洪;田卫东;;一种有效的带通配符约束的频繁序列模式挖掘算法[J];微计算机信息;2010年33期
8 杜凯杰;;网络资源在生物医学相关学科查询中的利用[J];实用医药杂志;2006年03期
9 戴东波;汤春蕾;邱伯仁;熊赟;朱扬勇;;一种优化多重过滤的序列查询算法[J];计算机研究与发展;2010年10期
10 片兆宇;高立群;吴建华;郭丽;王坤;;基于超模糊集的多属性图像阈值分割算法[J];系统仿真学报;2007年19期
中国重要会议论文全文数据库 前10条
1 廖顺和;乐嘉锦;;一种类K-means算法的高效近似查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 冯红伟;李战怀;;序列查询的过滤和求精方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 薛丹;李德敏;裴仁林;;移动计算中基于PrefixSpan算法的用户移动模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 郭建奎;朱扬勇;;一个基于WAP树结构的自顶向下挖掘Web访问模式算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 陈念;赵树进;韩丽萍;;市售14份蛇粗毒的16SrRNA基因序列分析[A];广东省药学会2009学术年会论文集[C];2010年
8 张兆功;李建中;;度量空间中相似性搜索的并行算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前9条
1 本报记者 蒋建科;破解天书惠人间[N];人民日报;2002年
2 吴森;基因识别出新招[N];医药经济报;2002年
3 许铁男;要拿金钱“赌”明天[N];医药经济报;2001年
4 EVOLVE;生物信息学和化学信息学双剑合壁造新药[N];中国高新技术产业导报;2002年
5 ;从人类基因测序开始[N];计算机世界;2003年
6 记者阎红;辽宁发现黄病毒新种“朝阳病毒”[N];健康报;2009年
7 记者 闫松;我国分离内地首株甲型流感病毒[N];大众科技报;2009年
8 ;古代建筑油饰彩画保护技术及传统工艺科学化研究[N];中国文物报;2010年
9 ;“古代建筑油饰彩画保护技术及传统工艺科学化研究”[N];中国文物报;2010年
中国博士学位论文全文数据库 前10条
1 冯红伟;数据挖掘技术的研究及应用[D];西北工业大学;2002年
2 孔秋生;基于公共序列数据库的Cucumis属EST-SSR标记的鉴定、开发和利用[D];华中农业大学;2006年
3 戴东波;序列数据的相似性查询研究[D];复旦大学;2009年
4 莫凡;蛋白质组学质谱数据分析的新方法研究开发[D];浙江大学;2011年
5 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
6 樊永军;内蒙古地区四种树木外生菌根形态多样性及分子鉴定[D];内蒙古农业大学;2009年
7 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
8 朱涛;并行生物计算集群的构建及性能评价和肿瘤转移相关基因的基因组聚类及功能注释[D];华中科技大学;2006年
9 徐玉生;频繁模式挖掘算法与剪枝策略研究[D];兰州大学;2008年
10 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 雷贞贞;掌纹的模糊识别方法研究[D];东北师范大学;2009年
2 刘振诚;一种频繁子树挖掘算法在Web日志挖掘中的应用研究[D];华中科技大学;2007年
3 黄泽炽;基于串联质谱和数据库搜索算法鉴定蛋白质的研究[D];湖南师范大学;2012年
4 李瑾;基因组启动子序列数据库和web应用系统的构建[D];华中科技大学;2007年
5 刘鑫;重复代码检测方法及其应用[D];哈尔滨工业大学;2007年
6 肖哲;基于MarKov链的Web访问序列挖掘算法研究[D];中南大学;2008年
7 仇大伟;基于序列数据库的数据挖掘系统的设计和研究[D];山东科技大学;2005年
8 朱莉;序列模式挖掘在Web用户访问序列挖掘中的应用研究[D];华东师范大学;2007年
9 王现君;基于位图的闭序列模式挖掘[D];河南大学;2008年
10 郭艳军;Web日志挖掘的相关技术研究[D];西南交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026