应用Web数据挖掘的主题元搜索引擎设计与实现
【摘要】:
本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。
论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。
论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个独立搜索引擎检索结果,提高查全率的特点和主题搜索引擎按主题搜索、索引文档,提高查准率的特点结合起来。
论文然后应用Nutch爬虫的不同工作方式,将从指定种子站点爬行到的网页集和从各独立搜索引擎爬行到的网页集融合在一起。再开发主题解析和主题索引插件,对爬行到的网页进行主题词提取,确定页面主题,计算主题度,并依照主题和主题度,为用户提供检索服务,从而提高了查准率。由于融合了各个搜索引擎的查询结果,同时也提高了查全率。
论文接下来对Nutch 0.9的检索功能和界面进行了增强,实现了具有独立数据库的主题元搜索引擎TSMSE,为用户提供分主题、按主题度排序的检索结果输出。并可根据检索历史记录对用户输入的检索关键字进行智能扩展提示,同时为搜索引擎返回结果的增加了自动聚类和分页浏览功能。
论文最后分别采用六个不同的搜索主题,对TSMSE主题元搜索引擎进行了简单的性能测试。结果表明,检索结果的查全率和查准率都有一定提高。
|
|
|
|
1 |
马燕,邹显春,包骏杰,李明;一种互联网智能元搜索引擎模型的设计[J];重庆师范大学学报(自然科学版);2004年03期 |
2 |
屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机;2004年05期 |
3 |
胡亮,许永诚,高文,胡利平;个性化高效元搜索引擎的设计与实现[J];计算机工程与设计;2005年04期 |
4 |
;来信[J];电子商务世界;2008年01期 |
5 |
仇海峰;元搜索引擎[J];中国计算机用户;1997年32期 |
6 |
张卫丰;徐宝文;周晓宇;李东;许蕾;;元搜索引擎研究[J];计算机科学;2001年08期 |
7 |
蔡耿青;搜索引擎——互联网之神[J];教育信息化;2003年09期 |
8 |
张付志,刘明业;一种基于元搜索引擎的数字图书馆系统集成框架[J];北京理工大学学报;2004年08期 |
9 |
伏汉英,黄永忠,陈新,杨凯,郭金庚;一种基于Java的元搜索引擎的设计与实现[J];信息工程大学学报;2004年04期 |
10 |
刘炜,陈俊杰;一种基于Agent的智能元搜索引擎框架[J];计算机工程与应用;2005年03期 |
11 |
李明;中文元搜索引擎万纬搜索研究[J];现代图书情报技术;2003年05期 |
12 |
龚蛟腾;元搜索引擎研究[J];情报杂志;2004年10期 |
13 |
猫女;;一些快速准确搜索资料的技巧[J];网络与信息;2009年02期 |
14 |
曾福兴;;主题目录和搜索引擎[J];上海高校图书情报学刊;2000年01期 |
15 |
胡誉耀;元搜索引擎的虚拟资源分类[J];情报科学;2004年05期 |
16 |
陈伟斌,张鑫;一种基于校园网的元搜索引擎的研究与设计[J];现代计算机;2005年03期 |
17 |
刘丽;元搜索引擎结果显示方式研究[J];情报杂志;2005年06期 |
18 |
林治;;快捷搜索征服您的想象[J];现代传输;2006年05期 |
19 |
薛云,陈俊杰;Internet上有关元搜索引擎的研究与设计[J];电脑开发与应用;2003年04期 |
20 |
王雁杰;元搜索引擎的发展悖论及建议[J];情报杂志;2004年07期 |
|