收藏本站
《吉林大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎的研究与设计

赵立刚  
【摘要】:搜索引擎(Search Engine)是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集、信息整理和用户查询三部分,以目录分类或全文检索的方式来提供查询服务。本文提出了一种简化的向量空间检索模型,通过统计主题词条对文档的贡献度来建立倒排序索引库,为用户提供智能的检索服务。 第一章分析了课题研究的背景和意义,并介绍了本文的结构;第二章简述了Web挖掘与信息检索的相关知识;第三章对搜索引擎的原理和技术进行了详细研究,并分析了搜索引擎的现状和发展趋势。 第四章对Google的PageRank算法进行了研究,得出了PageRank的计算方法,并把该算法作为排名算法的基础。 第五章首先详细讨论了分类策略和加权检索算法,并利用它们设计了一个基于Directory的搜索引擎系统,该系统按照主题建立分类索引,提供全面的分类体系结构,并且与基于关键词的检索手段结合起来,形成了一个等级主题索引与详细检索相结合的搜索引擎。 第六章首先提出了一种简化的向量空间检索模型,通过对检索字串的语义分析和建立基于词频统计的倒排索引库,为用户提供高效、智能、全面的检索;其次,提出了一种新的排名算法,并且对各种计算公式给出了定义;最后,结合检索和排名策略,对数据库结构进行了设计。本章还对基于Robot的搜索引擎的架构进行了讨论。 第五章和第六章的最后一节给出了若干试验示例,试验示例表明,本文提出的算法是正确的,并且具有一定的智能性。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前5条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
3 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
4 王霞,杨炳儒;Web搜索结果挖掘的研究与应用[J];计算机工程与应用;2003年14期
5 朱茂盛,王斌,程学旗;元搜索引擎及其实现[J];计算机工程;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 孙晓鹏,于春生;阀芯曲线拟合算法[J];鞍山钢铁学院学报;1999年05期
3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
4 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
5 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
6 原福永,李莉,李红岩;智能信息检索的设计与研究[J];燕山大学学报;2005年04期
7 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
8 钟斌青;刘湘南;;基于空间化PageRank算法的人口流动空间集聚性分析[J];地理与地理信息科学;2011年05期
9 王玉珍;;Google的PageRank技术分析[J];电脑学习;2007年05期
10 张骏;史振华;白丽晗;;基于.NET的Web结构挖掘技术研究及应用[J];电脑编程技巧与维护;2009年04期
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 于敏学,李敏生;神经网络模型的结构和算法的分离[J];北京理工大学学报;2001年05期
3 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
4 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
5 李岩芳;基于认知规律的CAI课件人机界面设计[J];长春光学精密机械学院学报;2001年01期
6 施建农,恽梅,翟京华,李新兵;7~12岁儿童视觉搜索能力的发展[J];心理与行为研究;2004年01期
7 鲁珂,赵继东,叶娅兰,曾家智;一种用于图像检索的新型半监督学习算法[J];电子科技大学学报;2005年05期
8 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
9 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
10 方玮玮;;机器学习方法浅析[J];福建电脑;2006年11期
【二级引证文献】
中国期刊全文数据库 前5条
1 陈永选;;基于P2SP技术的数字图书馆原型设计[J];计算机与现代化;2010年10期
2 李卫东;陆玲;;融合VSM技术的PageRank算法研究与应用[J];计算机与现代化;2011年07期
3 李卫东;唐国华;;基于网页分块思想的PageRank算法研究与优化[J];科技经济市场;2011年05期
4 王应;陈强;杨平;黄友均;;基于垂直搜索引擎的特色数据库检索模型[J];内蒙古科技与经济;2010年24期
5 毛东辉;;非标准英语的流行危害英语学习和使用[J];宁波广播电视大学学报;2013年03期
【二级参考文献】
中国期刊全文数据库 前9条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 谭兆民;试论网络信息资源的管理与服务[J];河南图书馆学刊;2001年04期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 杨炳儒;专家知识的归纳获取[J];计算机研究与发展;1997年07期
5 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
6 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期
7 钟清流;Web数据挖掘的BN实现方案[J];计算机工程;2001年06期
8 徐宝文,张卫丰;数据挖掘技术在Web预取中的应用研究[J];计算机学报;2001年04期
9 李紫萍,张厚生;搜索引擎ALTAVISTA在信息检索中的应用[J];江苏图书馆学报;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
2 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
3 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
4 杨彬;康慕宁;;基于概念的权重PageRank改进算法[J];情报杂志;2006年11期
5 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期
6 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期
7 姜鑫维;赵岳松;;Topic PageRank——一种基于主题的搜索引擎[J];计算机技术与发展;2007年05期
8 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[J];中文信息学报;2007年05期
9 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
10 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
中国重要会议论文全文数据库 前10条
1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年
2 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
3 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全国复杂系统研究论坛论文集(一)[C];2005年
中国硕士学位论文全文数据库 前10条
1 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
2 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年
3 刘文;主题相关的PageRank算法的改进策略的研究和实现[D];中国海洋大学;2009年
4 王磊;PageRank的算法改进[D];上海交通大学;2009年
5 赵波;PageRank算法在非网页检索问题中的应用[D];复旦大学;2010年
6 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
7 冯振明;分块式PageRank收敛算法及其改进[D];河海大学;2006年
8 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
9 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年
10 姜玥旭;PageRank算法的改进及在生物网络数据上的应用[D];吉林大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026