收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于酉变换的权威页面挖掘算法研究

孙原  
【摘要】: 因特网目前是一个巨大、分布广泛、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。 首先,本文对搜索引擎和Web页面挖掘进行了系统性的综述,内容包括搜索引擎的工作原理、搜索引擎分类和Web挖掘分类等方面,并重点分析和总结了经典权威页面挖掘算法的优缺点。然后,对酉变换理论及乘幂法基础知识进行了介绍,详细介绍了奇异值分解变换(简称SVD)和截断奇异值分解变换(简称TSVD),这些内容是本文研究内容的数学理论基础。 本文研究的核心内容是Web挖掘技术,将Web内容挖掘与Web结构挖掘两种思想相融合,给出基于截断奇异值分解的权威页面挖掘算法。基于TSVD的权威页面挖掘算法的处理过程主要分为两个部分,在Web结构挖掘基础上结合页面权重的内容挖掘变换算法,得到一个权重链接矩阵,然后对该矩阵进行TSVD变换,得到最终权威页面的排序。已有的文献所采用的权威页面挖掘算法基本上都是只采用一种挖掘机制,其中基于Web内容挖掘的算法较多,研究也比较成熟,基于Web结构挖掘的算法相对较少,两种机制各有优缺点。在此基础上,本文提出的基于TSVD权威页面挖掘算法,实质上是尝试将两种Web挖掘方式结合起来,以一种互补的方式,实现权威页面的挖掘,目的是有效提高查准率和查全率。使用截断奇异值分解变换的目的是能降低计算量,过滤掉冗余的数学计算,提高搜索响应时间。 最后,借助matlab仿真工具,对三种权重计算方案进行比较分析。详细介绍TSVD算法对典型的静态页面链接拓扑结构的权威页面挖掘过程,将经典PageRank算法的排序结果与TSVD算法的排序结果对比。仿真实验表明,本文提出的基于酉变换的权威页面挖掘算法相对于经典PageRank算法具有更好的查询性能和更高的查询准确度。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

知网文化
【参考文献】
中国期刊全文数据库 前9条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
4 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
5 徐宝文,张卫丰;数据挖掘技术在Web预取中的应用研究[J];计算机学报;2001年04期
6 陈伟柱,陈英,吴燕;基于分类技术的搜索引擎排名算法——CategoryRank[J];计算机应用;2005年05期
7 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
8 粟湘,焦微玲,吴沛;Web挖掘应用研究[J];情报理论与实践;2005年06期
9 胡红霞,王振兴,李申堂;搜索引擎技术的现状及发展趋势[J];信息工程大学学报;2001年04期
中国博士学位论文全文数据库 前1条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前2条
1 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
2 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
4 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
5 董玉德,王志诚,王明保,李道伦;基于WEB课件中动态题库的设计与开发[J];安徽纺织职业技术学院学报;2003年01期
6 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
7 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
8 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
9 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
10 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 林胜;存储系统容错及阵列编码[D];南开大学;2010年
5 杨承;日盲型紫外探测和直升机着舰光电助降技术的研究[D];电子科技大学;2010年
6 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
7 徐建军;面向寄存器软错误的容错编译技术研究[D];国防科学技术大学;2010年
8 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 陈进杰;城市轨道交通项目广义全寿命周期成本理论与应用研究[D];北京交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 韩微微;基于web日志的网络课程使用状况信息采集及评价的研究[D];哈尔滨师范大学;2010年
5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 金光;EPIRB检测仪技术方案设计与研究[D];哈尔滨工程大学;2010年
8 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
3 童其慧;主成分分析方法在指标综合评价中的应用[J];北京理工大学学报(社会科学版);2002年01期
4 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
5 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
6 徐林,邱敏华,高昌淑,邵谦明;一种基于小波变换的图像压缩编码方法[J];复旦学报(自然科学版);2004年01期
7 戴晓军,刘常昱,韩旭,李德毅;数据场在信息表征中的应用[J];复旦学报(自然科学版);2004年05期
8 赵新慧,朱伟;分布协作式搜索引擎系统的初步探索[J];抚顺石油学院学报;2003年04期
9 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
10 黄晓斌,万建伟,王展;基于改进K-L变换的特征提取技术[J];国防科技大学学报;2005年01期
【相似文献】
中国期刊全文数据库 前10条
1 郭燕莎;张大坤;;棋盘多项式非递归生成算法的提出与实现[J];计算机科学与探索;2007年02期
2 郝潇;陶卉;;信道编码技术中Turbo码的算法分析[J];重庆科技学院学报(自然科学版);2007年04期
3 宋敦波;;用递归算法求素数[J];西昌学院学报(自然科学版);2009年02期
4 汤德怀;;Java程序设计语言在大学教学中的探讨[J];中小企业管理与科技(上旬刊);2009年12期
5 钱程;;路由选择算法分析[J];科技信息;2010年21期
6 张国祥;数据库的通用输出接口[J];湖北师范学院学报(哲学社会科学版);1992年03期
7 王成;刘金刚;;一种改进的字符串匹配算法[J];计算机工程;2006年02期
8 尚蕾;;地图分形信息研究的算法分析[J];山东省农业管理干部学院学报;2006年01期
9 花晓菲;李旭;;基于图论的频率规划算法分析与仿真[J];西安邮电学院学报;2007年01期
10 刘国志;赵晓颖;;压缩系数的微粒群优化算法的收敛性分析[J];江西师范大学学报(自然科学版);2007年06期
中国重要会议论文全文数据库 前10条
1 仇晓兰;胡东辉;丁赤飚;;几种平飞模式双站SAR成像算法的分析和比较[A];全国第二届信号处理与应用学术会议专刊[C];2008年
2 沈松鸽;姜兆能;丁大志;樊振宏;陈如山;;改进的多层压缩块分解(MLCBD)算法分析电磁散射问题[A];2011年全国微波毫米波会议论文集(下册)[C];2011年
3 杨碧姗;王腾蛟;常雷;杨冬青;唐世渭;;BICA:一种快速可扩展的ADTree构建算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 陈淼;张杰;宋平舰;孟俊敏;;基于组件技术的实用海洋遥感算法模块化设计[A];第十四届全国遥感技术学术交流会论文选集[C];2003年
5 赵耿;卢芳芳;;最近提出的基于混沌的公钥密码算法分析[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
6 周玉清;张红梅;;多源最短路径Floyd算法的分析与实现[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
7 彭绪富;石曙东;;多方不可否认互签算法协议设计[A];第四届中国软件工程大会论文集[C];2007年
8 张晓杰;;工程结构CAD系统的智能编译策略[A];第五届全国结构工程学术会议论文集(第一卷)[C];1996年
9 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
10 姚伟江;胡亮;王驰宇;傅新;叶朋;;多功能流量积算仪数学模型及其算法分析[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
2 Elaine Kub新华期货 郭伟明 喻嘉乐;商品市场的游戏新规[N];期货日报;2008年
3 申文怡;Google后来居上 雅虎突围有望?[N];电子资讯时报;2007年
4 江苏省海安县海陵中学 王孝东;信息学奥赛辅导中的困惑及对策[N];中国电脑教育报;2005年
5 田野;高级程序员考试经验谈[N];中国电脑教育报;2004年
6 秋云;电子工业出版社 科技、教育带动版贸腾飞[N];中国图书商报;2003年
7 尹宏毅;2004年度世界最佳科技创新大奖(上)[N];学习时报;2005年
8 荣辉;新型数据管理助力企业竞争[N];科技日报;2006年
9 张晓兵;四阶段演绎反垃圾邮件进程[N];中国计算机报;2007年
10 马庆仁;扫描仪水涨OCR船高[N];中国企业报;2000年
中国博士学位论文全文数据库 前10条
1 于继明;无线传感器网络基于分簇的多路径路由算法研究[D];南京理工大学;2008年
2 叶祺;大规模网络的社团发现与多层次可视化分析[D];北京邮电大学;2011年
3 周灵;高性能IP组播路由算法研究[D];南京理工大学;2007年
4 罗柏文;随机布设多天线信号合成关键技术研究[D];解放军信息工程大学;2013年
5 郭晓静;独立分量分析在脑—机接口中的应用研究[D];安徽大学;2010年
6 李宏伟;HEVC若干关键技术研究[D];西安电子科技大学;2012年
7 王兵;逻辑进程范型的形式语义、算法评估及其在空间随机仿真中的应用[D];国防科学技术大学;2011年
8 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
9 周红福;基于索引的Skyline算法研究[D];复旦大学;2007年
10 韩邦合;赋值代数分裂算法与隐性半环赋值研究[D];陕西师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 何涛;结构方程模型PLS算法研究[D];天津大学;2006年
2 吴卉男;基于数据挖掘技术的入侵检测研究[D];贵州大学;2007年
3 刘奎;H.264视频编码帧间、帧内算法研究[D];河海大学;2007年
4 李鹏;不同选择策略的人工植物算法[D];太原科技大学;2014年
5 陈虎;网络划分的算法[D];上海交通大学;2011年
6 王锦锦;层次凝聚和主动学习半监督社团检测算法研究[D];兰州大学;2014年
7 吴雪雪;具有动态种群的人工植物算法[D];太原科技大学;2014年
8 姚华丽;基于H.264的MFHS算法的研究与实现[D];河南工业大学;2013年
9 杨海洋;Massive MIMO中低复杂度接收算法的研究[D];电子科技大学;2013年
10 张健;基于H.264的UMHexagonS算法的优化设计[D];哈尔滨工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026