收藏本站
收藏 | 论文排版

基于元搜索的中文搜索引擎研究与实现

陈伟雄  
【摘要】:信息检索是人们上网的主要目的之一,但目前两大主流中文搜索引擎Baidu和Google还存在一些需要研究解决的技术,如多关键词下如何提高搜索准确率、如何利用中文元搜索引擎以提高搜索召回率、中文元搜索引擎下如何实现快速同步查询功能等问题,这就涉及如何研究和实现基于元搜索的中文引擎系统。 本论文以提高搜索引擎准确率为主要目标,研究和实现了中文元搜索引擎系统,主要创新点:(1)设计了元搜索引擎的总体框架,提出了查询代理、搜索代理、运算代理三大功能模块,并阐述各代理的功能流程。(2)对目前10大中文搜索引擎进行搜索召回率、搜索时间和信息重复度比较,最终以Google和Baidu作为我们中文元搜索引擎的基本数据源,它们的召回率达到88.8%,为提高元搜索引擎准确率的做好准备。(3)在基于网页摘要分析的信息检索方面,提出了比例分析法和比值分析法来计算网页相关度。其中,比例分析法只需要分析网页标题,其最大平均准确率为76.56%,但出现很多网页相关度相同的现象;而比值分析法既考虑网页标题和又考虑网页摘要,其最大平均准确率为72.74%,但能较好区分各网页,为我们所采纳的计算方法。实验结果表明,比值分析法能够提高元搜索引擎的搜索性能,其平均搜索准确率比Google提高3.16%,比Baidu提高6.21%;而且,元搜索引擎的搜索时间与Google、Baidu在同一数量级上,能够保证同步搜索,既节省大量的硬盘存储空间,又保证信息来源的准确性。基于网页摘要分析的元搜索引擎新算法研究对于实现高准确率、高响应速度的搜索引擎具有重要参考价值。(4)在基于网页内容分析的多关键词信息检索方面,提出了核心关键词和分级权重的算法,并提出改进相关度计算方法。我们实验表明,元搜索引擎的最大平均准确率为82.00%,比Google提高12.37%,比Baidu提高18.05%,搜索性能得到很大的改善。(5)在元搜索引擎系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,实现了基于网页内容分析的多关键词信息检索、 WP=3 基于网页摘要分析的单关键词信息检索,以及元搜索引擎与基本搜索引擎的搜索准确率和搜索时间比较三大功能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;本刊重要启事[J];辽宁财专学报;2000年04期
2 ;向本刊投稿须知[J];广西高教研究;2000年02期
3 ;来稿规范[J];教育理论与实践;2001年01期
4 ;来稿规范[J];教育理论与实践;2001年07期
5 孟青;试论学术期刊中关键词的标引[J];北京工业大学学报(社会科学版);2002年02期
6 ;6款不同搜索利器的接触[J];电子与电脑;2002年05期
7 ;下期发表论文摘要预报[J];系统工程理论方法应用;2002年04期
8 谭秀英;关于学术期刊规范化的若干问题[J];社会科学管理与评论;2003年03期
9 ;规范关键词选择的决定(试行)[J];真空科学与技术;2004年01期
10 赵波;关键词的选择与分类号的确定[J];中国生育健康杂志;2004年05期
11 ;药学学报第29卷第1~12期关键词索引[J];药学学报;1994年12期
12 张朗,阎淑萍,张士莹;化工期刊撰稿常识(续一)──摘要写法与关键词的选取[J];河北化工;1995年03期
13 周芬娜;科技论文的关键词标引[J];编辑之友;1997年03期
14 董素音;用主题词和关键词双重标引文献主题初探[J];大学图书馆学报;1997年03期
15 张炼;关于环境科技期刊中值得注意的几个问题[J];环境保护科学;1997年02期
16 方琳;编辑审稿需注意的几个问题[J];中山大学学报论丛;1997年S2期
17 邹增家,武霞,敖丽敏;利用模糊集合进行计算机情报检索[J];情报理论与实践;1998年04期
18 ;重要启事[J];重庆大学学报(社会科学版);1999年04期
19 ;致作者[J];杭州金融研修学院学报;1999年05期
20 董毅士;环保期刊关键词标引评析[J];情报杂志;2000年01期
中国重要会议论文全文数据库 前10条
1 ;关于摘要和关键词的说明[A];中国人民解放军医学会第九届放射诊疗专业学会论文集[C];2005年
2 李玉亭;温智虹;姜莹;;重视科技论文摘要的撰写 提高关键词的准确性[A];中国地震学会第十次学术大会论文摘要专集[C];2004年
3 ;规范关键词选择的决定(试行)[A];薄膜技术学术研讨会论文集[C];2003年
4 ;化学与社会论坛[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
5 ;生命科学中的分析化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
6 ;化学生物学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
7 ;化学信息学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
8 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
9 ;理论化学、计算与模拟化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
10 张建方;;试验设计中五个关键词的翻译问题[A];中国现场统计研究会第12届学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 洪国彬;基于随机Petri网的企业业务流程重组的理论与优化方法研究[D];天津大学;2003年
2 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
3 方攀峰;爪蟾肌肉发生过程中xTbx6 基因的功能和相应的上下游分子机制的研究[D];中国科学院研究生院(上海生命科学研究院);2004年
4 张艳梅;海派市民小说与现代伦理叙事[D];东北师范大学;2004年
5 王战平;网络环境下的企业危机预警模型及应用研究[D];华中科技大学;2007年
6 黄汉平;拉康与后现代文化批评[D];暨南大学;2004年
7 李思捷;身份书写与跨文化心态透视[D];暨南大学;2003年
8 邹西峰;骨髓源干细胞在损伤脑组织中迁移和分化的研究[D];第一军医大学;2004年
9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
10 金建军;血管内皮生长因子在膀胱肿瘤血、尿中的表达和反义基因治疗的研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
2 李纪昌;面向质量安全的元搜索数据采集系统的设计与实现[D];华中科技大学;2012年
3 吴宗灵;基于JSSH的元搜索技术研究与应用[D];上海交通大学;2011年
4 张春磊;基于元搜索的Web信息搜索技术研究[D];吉林大学;2012年
5 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
6 李欢;基于多Agent及元搜索技术的中文问答系统的研究和应用[D];石家庄铁道学院;2009年
7 李益;基于多Agent的智能搜索引擎系统研究[D];哈尔滨工程大学;2004年
8 陈先;智能搜索引擎关键技术研究与实现[D];哈尔滨工程大学;2003年
9 王非;meta-engine中异构性的处理[D];武汉大学;2004年
10 何均洪;[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 本报记者 刘猛;券商十大关键词[N];证券时报;2000年
2 中国光大银行 林虹;点击 2004八大关键词[N];中国证券报;2004年
3 本报记者 徐杰 张明;“合理”与“综合”应成关键词[N];政府采购信息报;2005年
4 陈志怀;OTC终端的六大关键词[N];医药经济报;2005年
5 刘武俊;2005年时政关键词猜想[N];中华工商时报;2005年
6 通讯员 施教 南京日报记者 刘焱;解读2004年南京教育发展五大关键词[N];南京日报;2005年
7 ;关键词[N];电脑报;2005年
8 蒋祖芳;点击2004公安关键词[N];宜兴日报;2005年
9 ;点击关键词[N];中国计算机报;2005年
10 佟永明;五大“关键词”诠释沈阳市政协工作[N];人民政协报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978