收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于酉变换的权威页面挖掘算法研究

孙原  
【摘要】: 因特网目前是一个巨大、分布广泛、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。 首先,本文对搜索引擎和Web页面挖掘进行了系统性的综述,内容包括搜索引擎的工作原理、搜索引擎分类和Web挖掘分类等方面,并重点分析和总结了经典权威页面挖掘算法的优缺点。然后,对酉变换理论及乘幂法基础知识进行了介绍,详细介绍了奇异值分解变换(简称SVD)和截断奇异值分解变换(简称TSVD),这些内容是本文研究内容的数学理论基础。 本文研究的核心内容是Web挖掘技术,将Web内容挖掘与Web结构挖掘两种思想相融合,给出基于截断奇异值分解的权威页面挖掘算法。基于TSVD的权威页面挖掘算法的处理过程主要分为两个部分,在Web结构挖掘基础上结合页面权重的内容挖掘变换算法,得到一个权重链接矩阵,然后对该矩阵进行TSVD变换,得到最终权威页面的排序。已有的文献所采用的权威页面挖掘算法基本上都是只采用一种挖掘机制,其中基于Web内容挖掘的算法较多,研究也比较成熟,基于Web结构挖掘的算法相对较少,两种机制各有优缺点。在此基础上,本文提出的基于TSVD权威页面挖掘算法,实质上是尝试将两种Web挖掘方式结合起来,以一种互补的方式,实现权威页面的挖掘,目的是有效提高查准率和查全率。使用截断奇异值分解变换的目的是能降低计算量,过滤掉冗余的数学计算,提高搜索响应时间。 最后,借助matlab仿真工具,对三种权重计算方案进行比较分析。详细介绍TSVD算法对典型的静态页面链接拓扑结构的权威页面挖掘过程,将经典PageRank算法的排序结果与TSVD算法的排序结果对比。仿真实验表明,本文提出的基于酉变换的权威页面挖掘算法相对于经典PageRank算法具有更好的查询性能和更高的查询准确度。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 尹四清;孔鹏程;张素兰;;利用编码的频繁导出式子树挖掘算法[J];计算机工程与应用;2011年24期
2 谢文阁;王海虹;;一种改进的基于距离的孤立点挖掘算法的研究[J];渤海大学学报(自然科学版);2011年02期
3 林颖;;闭合序列模式的一种增量挖掘算法[J];重庆理工大学学报(自然科学);2011年06期
4 张长海;胡孔法;陈崚;宋爱波;;一种高效的基于位图序列模式挖掘算法[J];高技术通讯;2010年02期
5 黄钧钧;谢伙生;;数据流中基于滑动窗口的闭序列模式挖掘算法[J];计算机工程与设计;2011年06期
6 田王君;蒋军辉;陈士慧;;基于矩阵技术的频繁项目集挖掘算法[J];计算机工程;2011年16期
7 戴月明;李彦伟;王金鑫;;一种加权时态关联规则挖掘算法[J];计算机工程与应用;2011年26期
8 邹海;朱四红;;基于HFUFP-tree的增量挖掘算法研究[J];计算机应用与软件;2011年09期
9 毛伊敏;杨路明;李宏;陈志刚;刘立新;;一种有效的数据流最大频繁模式挖掘算法[J];高技术通讯;2010年03期
10 李广原;杨炳儒;刘永彬;刘英华;;多维序列模式挖掘算法[J];计算机工程与设计;2011年07期
中国重要会议论文全文数据库 前10条
1 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 郭平;陈黎;聂亚可;林勇;;以Apriori为基础的序列挖掘算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 曹波伟;薛青;唐志武;任晓明;;面向军事基础数据的数据挖掘研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
5 莫晓静;史岚;许光宇;赵宇海;王国仁;乔建忠;;MFCC:一种高效的三维频繁闭项集挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 段军晓;;数据挖掘技术在民航快递市场营销中的应用[A];第六届中国科学家论坛论文汇编[C];2007年
7 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 曹国栋;郭景峰;;一种基于定量更新滑动窗口频繁闭项集挖掘算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 张磊;夏士雄;周勇;牛强;;具有语义最小支持度的关联规则挖掘方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
中国重要报纸全文数据库 前10条
1 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
2 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年
3 ;数据挖掘流程[N];人民邮电;2001年
4 武李 林姚;“钻石眼”图像挖掘系统[N];计算机世界;2002年
5 江青;海尔出击智能分析软件[N];计算机世界;2002年
6 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
7 陈雨田;商业分析:挖掘数据的最佳工具[N];中国城乡金融报;2011年
8 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
9 刘畅;重庆移动创新营销促手机报发展[N];人民邮电;2008年
10 浙江省金华市烟草专卖局 满在明 廖明景;谈卷烟专卖案件信息的挖掘[N];东方烟草报;2011年
中国博士学位论文全文数据库 前10条
1 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
2 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
3 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
4 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
5 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
6 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
7 景旭文;基于数据挖掘的动态全息产品概念设计理论与方法研究[D];东南大学;2005年
8 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
9 吴简;面向业务的基于模糊关联规则挖掘的网络故障诊断[D];电子科技大学;2012年
10 贝毅君;XML数据频繁模式挖掘技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
2 李栋;非自由选择结构挖掘算法的研究[D];山东大学;2011年
3 米长超;基于层次提取—局部聚类的社区挖掘算法[D];哈尔滨工程大学;2012年
4 许光宇;三维微阵列频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
5 刘文艳;基于深度优先策略的频繁导出子图挖掘算法[D];西安电子科技大学;2009年
6 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
7 田文诗;基于学习者行为的序列模式挖掘算法研究与实现[D];吉林大学;2011年
8 莫晓静;基于元素增长搜索策略的频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
9 赵楠明;网游客户分群与特征挖掘算法研究与应用[D];大连理工大学;2012年
10 张爱国;基于位置信息的精简频繁模式挖掘算法的研究[D];燕山大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026