收藏本站
《武汉理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎有关排序算法研究

陈凯  
【摘要】:随着互联网的不断发展,网络已经成为了人们获取信息的重要来源。但是网络信息的快速增加,使得人们快速准确查找信息的难度也不断增大。搜索引擎的出现,就是为了帮助人们解决这个问题。搜索引擎是一项不断发展的技术,包括网页抓取、分词、页面索引、数据存储、检索、结果排序等一系列的技术环节,搜索结果排序是其中最重要的环节之一。用户最关注的就是搜索引擎返回的搜索结果和自己的查询主题是否一致,结果页面是否能满足自己的信息需求。因此,在海量信息中,搜索引擎能否将最相关的页面显示在搜索结果的最前面,成为了搜索引擎目前发展最关注的问题。 本文通过了解搜索引擎发展历程,研究搜索引擎技术的整体架构,分析了搜索引擎系统各个部分的主要功能和整个工作流程,明确了搜索引擎的评价标准。在此基础上,着重研究了搜索引擎排序算法的有关问题。按照基于网页内容的排序算法和基于页面链接分析的排序算法两类不同的排序算法思想,分别分析了这两类算法的基本原理和实现方法,重点研究了PageRank算法、HITS算法、HillTop算法这三种经典的排序算法,从算法思想、基本过程、算法的优缺点和已有的改进方法等方面,详细对基于页面链接分析的排序算法进行了研究。 本文针对基于页面链接分析的排序算法存在的问题,引入了用户反馈的概念,分析了用户反馈在搜索引擎中使用的方式,并以PageRank算法为基础,提出了改进的方法。改进的PageRank算法添加了用户点击次数反馈和点击时间反馈的反馈权重,并结合基于网页内容的排序算法思想,加入了网页内容权重,对PR值的计算公式进行改进。 通过设计实验对改进的算法进行验证,对比分析改进前后的排序算法结果页面中相关页面的情况,证明了改进的PageRank算法能够较好的解决主题偏移、网页欺骗和偏重旧网页等问题,使搜索结果中相关性较高的页面能够排在前列,提高了搜索结果的质量。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 孙进;基于Slor的个性化搜索引擎设计与实现[D];北京化工大学;2012年
2 蔡晶晶;多文档全文检索系统的设计与开发[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 张春元;康耀红;伍小芹;;Web信息检索排序算法研究[J];海南大学学报(自然科学版);2009年01期
2 杨海东,张莉;PageRank技术分析与搜索引擎检索效率研究[J];淮阴师范学院学报(自然科学版);2003年03期
3 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
4 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
5 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
6 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
7 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
8 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
9 阎放,张海涛,朱宏谊;GOOGLE搜索引擎PageRank技术的优化[J];情报科学;2002年12期
10 陈海龙;搜索引擎的评价标准及方法研究[J];情报杂志;2001年09期
中国博士学位论文全文数据库 前1条
1 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前5条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
3 李明浩;基于搜索引擎和数据挖掘的个性化web信息服务[D];吉林大学;2008年
4 杨之音;第三代搜索引擎现状与发展研究[D];东北师范大学;2010年
5 刘红莲;基于链接分析的搜索引擎排序算法研究[D];四川师范大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 黄德玲;网络中文搜索引擎的比较研究[J];安徽教育学院学报;2004年04期
2 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
3 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
4 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
5 程仁贵;;带反向词频的中英文词典的设计[J];重庆工学院学报(自然科学版);2008年11期
6 钟斌青;刘湘南;;基于空间化PageRank算法的人口流动空间集聚性分析[J];地理与地理信息科学;2011年05期
7 蒋明原;孔令德;宁静静;;一种海量数据下的Lucene全文检索解决方案[J];电脑开发与应用;2011年04期
8 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
9 杨武;唐蓉;任丽芸;;重复网页检测算法综述[J];电脑知识与技术;2010年22期
10 程军,刘斌中;数字图书馆海量文本全文检索系统[J];大学图书馆学报;2002年05期
中国重要会议论文全文数据库 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 王墨君;齐欧;;搜索引擎中基于磁性隐喻的图形化界面交互方式[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
9 张志涛;杨沐昀;李生;齐浩亮;宋超;;搜索引擎日志分析:协同推荐还是个性化检索[A];第五届全国信息检索学术会议论文集[C];2009年
10 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
2 谢超;自适应地图可视化关键技术研究[D];解放军信息工程大学;2009年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 申文武;无结构P2P网络中基于语义和节点存储能力的搜索关键技术研究[D];北京邮电大学;2011年
7 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
8 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
9 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
10 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
4 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
7 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
8 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
9 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
10 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
3 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
4 林宫;;基于OLE和VBA的数据库与WORD数据交互研究[J];福州大学学报(自然科学版);2006年06期
5 张波;韩珩;;基于MVC模式的Structs框架的研究与实现[J];甘肃科技;2008年07期
6 张剑瑛;;搜索引擎[J];黑龙江科技信息;2010年25期
7 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
8 潘春华,冯太明,武港山;基于移动爬虫的专用Web信息收集系统的设计[J];计算机工程与应用;2003年36期
9 宋佳;诸云强;刘润达;;一种基于Lucene改进的全文检索工具包[J];计算机工程与应用;2008年04期
10 何明;周军;李树友;;语义相似的PageRank改进算法[J];计算机工程与应用;2009年27期
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
3 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年
4 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
5 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年
6 李彦辉;基于用户兴趣的个性化搜索引擎研究[D];山西财经大学;2011年
7 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
8 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
9 孟庆鑫;搜索引擎相关技术研究[D];中国科学技术大学;2011年
10 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 韩露;基于用户兴趣模型的个性化搜索系统的研究[D];西南大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 蔡旭晖,刘泽星;Internet信息检索与计算机基础教学[J];长沙铁道学院学报(社会科学版);2004年03期
4 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
5 张冉;夏素萍;;一种基于空间向量模型的主题PageRank算法[J];电脑知识与技术;2009年04期
6 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
7 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
8 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
9 曾长缨;互联网信息搜索结果的排序问题[J];广东科技;2004年11期
10 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
中国重要报纸全文数据库 前4条
1 穆荣平;[N];中国质量报;2006年
2 记者 陈炳欣/北京;[N];电子资讯时报;2005年
3 本报记者 姚睿;[N];计算机世界;2003年
4 洪小文;[N];计算机世界;2005年
中国博士学位论文全文数据库 前1条
1 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前9条
1 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
2 江裕民;基于超链接的WEB结构挖掘算法的研究[D];西安电子科技大学;2006年
3 陈学进;Web结构挖掘研究[D];合肥工业大学;2006年
4 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
5 刘芳芳;Web链接分析中HITS算法的研究[D];大连理工大学;2006年
6 刘军;基于Web结构挖掘的HITS算法研究[D];中南大学;2008年
7 卢虹宇;Web结构挖掘中HITS算法的研究[D];西南交通大学;2008年
8 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
9 肖龙滨;智能型搜索引擎的研究[D];兰州理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 赵殿满;排序算法的优化[J];计算机应用与软件;1987年02期
2 杨宪泽;长记录位置不变的排序算法[J];软件学报;1993年02期
3 黄干平;并行“冒泡”排序算法的改进[J];武汉大学学报(自然科学版);1994年01期
4 黄橡丽,王兵;2-路插入排序的一种新算法[J];天津纺织工学院学报;1996年01期
5 刘文浩 ,张威;多线程技术实现排序算法[J];电脑编程技巧与维护;2005年08期
6 李强,李会容,张雪峰;关于冒泡排序的改进算法的分析与比较[J];攀枝花学院学报;2005年04期
7 徐金雷;杨晓江;;专业搜索引擎的排序算法研究[J];现代图书情报技术;2006年07期
8 王永刚;;排序算法综述[J];电脑知识与技术(学术交流);2006年29期
9 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
10 朱容波;;基于用户偏好的个性化网页排序算法(英文)[J];Journal of Southeast University(English Edition);2008年03期
中国重要会议论文全文数据库 前10条
1 周晓方;金志权;;寻找最佳分布式排序算法[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘凯鹏;方滨兴;;一种基于社会性标注的网页排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
5 黄毅;李剑;祁金才;张锦雄;;线性阵列上的奇偶归拆排序并行算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年
6 吴志彬;陈义华;;ANP中超矩阵排序算法研究[A];2006中国控制与决策学术年会论文集[C];2006年
7 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 陈丛丛;石冰;陈健;;面向主题的查询相关网页排序算法[A];第三届中国智能计算大会论文集[C];2009年
9 王少帅;汤庆新;姚路;;并行独立集排序算法的改进与实现[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
10 史亚维;张茹;杨义先;钮心忻;;一种改进的用于GIF图像的脆弱水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 广东 黄陀;基本算法简介(三)[N];电脑报;2001年
2 郑依华;搜索引擎也开源[N];计算机世界;2006年
3 胥小红;Autonomy:挑战知识管理的极限[N];大众科技报;2007年
4 PALADIN;对算法进行分析(2)[N];电脑报;2003年
5 百度公司CEO 李彦宏;为搜索引擎写答卷[N];中国计算机报;2000年
6 王立群;搜索新生代[N];中国计算机报;2005年
7 吴怀宇;搜索引擎进入细分时代[N];中国经营报;2007年
8 ;Peribit将推出数据中心用网络平台[N];计算机世界;2004年
9 中国虫;算法演义[N];电脑报;2003年
10 PALADIN;算法演义[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 郝凡昌;有向基因组复合操作重组排序算法研究[D];山东大学;2011年
2 农庆琴;在线排序与路由安排[D];郑州大学;2006年
3 尹晓;基因组重组排序问题的算法研究[D];山东大学;2010年
4 王灿;基于半监督流形学习的Web信息检索技术研究[D];浙江大学;2009年
5 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
6 刘旭;基于图剖分和图排序的负载平衡算法研究[D];中国工程物理研究院;2008年
7 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
8 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
9 杨远;MIMO系统中的检测算法研究[D];西安电子科技大学;2009年
10 王世良;MIMO通信系统中接收端检测技术的研究[D];北京邮电大学;2013年
中国硕士学位论文全文数据库 前10条
1 申大明;带到达时间的单位工件在线排序[D];浙江大学;2007年
2 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
3 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
4 田志章;流水型CONWIP生产控制系统研究[D];武汉理工大学;2007年
5 程建;一种网页搜索引擎原型系统的设计与实现[D];北京邮电大学;2009年
6 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
7 杨斯崑;基于主题相关性的社交问答系统个性化专家排序算法的研究[D];北京交通大学;2014年
8 侯红梅;图像搜索重排序算法研究[D];山东大学;2014年
9 陈辉;金融领域的博客信息采集与排序算法研究[D];哈尔滨工业大学;2009年
10 Mushtaq AbdulMutalib Hasson;一种论文时间与引用兼顾的科研论文排序算法[D];华中科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026