收藏本站
收藏 | 论文排版

应用Web数据挖掘的主题元搜索引擎设计与实现

杨丹波  
【摘要】: 本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个独立搜索引擎检索结果,提高查全率的特点和主题搜索引擎按主题搜索、索引文档,提高查准率的特点结合起来。 论文然后应用Nutch爬虫的不同工作方式,将从指定种子站点爬行到的网页集和从各独立搜索引擎爬行到的网页集融合在一起。再开发主题解析和主题索引插件,对爬行到的网页进行主题词提取,确定页面主题,计算主题度,并依照主题和主题度,为用户提供检索服务,从而提高了查准率。由于融合了各个搜索引擎的查询结果,同时也提高了查全率。 论文接下来对Nutch 0.9的检索功能和界面进行了增强,实现了具有独立数据库的主题元搜索引擎TSMSE,为用户提供分主题、按主题度排序的检索结果输出。并可根据检索历史记录对用户输入的检索关键字进行智能扩展提示,同时为搜索引擎返回结果的增加了自动聚类和分页浏览功能。 论文最后分别采用六个不同的搜索主题,对TSMSE主题元搜索引擎进行了简单的性能测试。结果表明,检索结果的查全率和查准率都有一定提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马燕,邹显春,包骏杰,李明;一种互联网智能元搜索引擎模型的设计[J];重庆师范大学学报(自然科学版);2004年03期
2 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机;2004年05期
3 胡亮,许永诚,高文,胡利平;个性化高效元搜索引擎的设计与实现[J];计算机工程与设计;2005年04期
4 ;来信[J];电子商务世界;2008年01期
5 仇海峰;元搜索引擎[J];中国计算机用户;1997年32期
6 张卫丰;徐宝文;周晓宇;李东;许蕾;;元搜索引擎研究[J];计算机科学;2001年08期
7 蔡耿青;搜索引擎——互联网之神[J];教育信息化;2003年09期
8 张付志,刘明业;一种基于元搜索引擎的数字图书馆系统集成框架[J];北京理工大学学报;2004年08期
9 伏汉英,黄永忠,陈新,杨凯,郭金庚;一种基于Java的元搜索引擎的设计与实现[J];信息工程大学学报;2004年04期
10 刘炜,陈俊杰;一种基于Agent的智能元搜索引擎框架[J];计算机工程与应用;2005年03期
11 李明;中文元搜索引擎万纬搜索研究[J];现代图书情报技术;2003年05期
12 龚蛟腾;元搜索引擎研究[J];情报杂志;2004年10期
13 猫女;;一些快速准确搜索资料的技巧[J];网络与信息;2009年02期
14 曾福兴;;主题目录和搜索引擎[J];上海高校图书情报学刊;2000年01期
15 胡誉耀;元搜索引擎的虚拟资源分类[J];情报科学;2004年05期
16 陈伟斌,张鑫;一种基于校园网的元搜索引擎的研究与设计[J];现代计算机;2005年03期
17 刘丽;元搜索引擎结果显示方式研究[J];情报杂志;2005年06期
18 林治;;快捷搜索征服您的想象[J];现代传输;2006年05期
19 薛云,陈俊杰;Internet上有关元搜索引擎的研究与设计[J];电脑开发与应用;2003年04期
20 王雁杰;元搜索引擎的发展悖论及建议[J];情报杂志;2004年07期
中国重要会议论文全文数据库 前10条
1 阳小华;刘振宇;谭敏生;刘杰;左贵启;;元搜索引擎查询结果的合成方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 李慧;张民;宋源清;;网络搜索引擎[A];2009全国计算机网络与通信学术会议论文集[C];2009年
3 孟奇奎;;一种基于数据库和用户反馈信息的元搜索引擎数据库选择算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 余晋;邓志鸿;田敬;唐世渭;;PinkySearch:基于聚类的元搜索引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 吴冷冬;童云海;唐世渭;;面向在线音乐视频的元搜索引擎VMS[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 夏小玲;祁博民;廖顺和;;基于Web服务和元搜索引擎的数字图书馆中元数据互操作框架[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 陈伟雄;马少平;步建华;;基于元搜索引擎的多关键词检索技术[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年
8 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
9 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 吴远红;徐妙君;范银琛;;元搜索引擎中基于OWA算子的查询结果合成研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前4条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
3 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
4 徐明;对等网络中的查询路由与重构机制[D];复旦大学;2010年
中国硕士学位论文全文数据库 前10条
1 王金栋;元搜索引擎调度策略及结果排序算法的研究[D];燕山大学;2010年
2 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
3 冯冰洁;后缀树算法在元搜索引擎中的应用[D];暨南大学;2010年
4 张鑫;基于本体论的领域元搜索引擎的研究与设计[D];兰州大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
7 王春艳;元搜索引擎的研究与实现[D];吉林大学;2011年
8 刘海;建立基于元搜索引擎的语音库查询收集系统[D];淮北师范大学;2011年
9 李亚;元搜索引擎的个性化技术研究[D];燕山大学;2011年
10 王莎莎;元搜索引擎结果合成技术的研究[D];燕山大学;2011年
中国重要报纸全文数据库 前10条
1 山东 张蕊;“闻香识引擎”[N];中国计算机报;2000年
2 ITBOY;探索出来的世界[N];电脑报;2004年
3 赵敏超;利用因特网查找信息三步骤[N];中国图书商报;2003年
4 王旭;中文智能搜索引擎[N];计算机世界;2001年
5 彭岩 艾迪明;网络信息“拉取”技术[N];计算机世界;2001年
6 易观网络咨询公司;引航“?”年代[N];中国计算机报;2000年
7 应晓敏 窦文华;他山之石[N];计算机世界;2003年
8 搜索引擎9238;英文搜索四当家[N];中国计算机报;2001年
9 应晓敏 窦文华;条条道路通罗马[N];计算机世界;2003年
10 刘洋;数字时代如何写好英语论文[N];中华读书报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978