收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式主题搜索引擎的研究与实现

叶海  
【摘要】:随着网络信息的爆炸式增长,通用搜索引擎面临极大的存储及检索压力,用户搜索的结果也很泛很粗糙。用户迫切需要一个数据分类细致、全面、精确、深入的面向主题的搜索引擎来获取主题资源信息。面对海量网页信息,单机无法完成大量网页文档的存储,也无法取得理想的爬虫爬取时间及检索响应时间。分布式计算成为计算机应用领域的一个研究热点,被广泛应用于搜索引擎中,极大地缓解了搜索引擎的存储、检索压力。目前国内外对主题搜索进行了大量的研究,也出现了主题搜索引擎的商业应用。 本文通过对开源搜索引擎Nutch、Hadoop分布式平台及主题搜索相关技术进行大量研究的基础上,对HDFS的设计、主题词典的建立及主题资源采集策略进行改进,最终实现一个基于招聘主题的分布式主题搜索引擎。首先对HDFS的设计进行了改进,改善了负载均衡问题;其次基于DOM树改进词共现模型,对主题词典进行扩展,提高相关文档的召回率及准确率;然后改进主题资源采集策略,基于元搜索获取主题爬虫入口地址,采用主题词建立空间向量模型计算网页文档与主题的相关度。 本文提出的分布式主题搜索引擎经过测试及结果分析,可以看到集群的负载均衡问题得到了改善,主题资源采集效率随着爬虫的爬行能保持稳定的、较高的资源采集效率。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前8条
1 陈丛;;Hash算法原理及在快速检索中的应用[J];福建电脑;2009年11期
2 朱岸青;黄杰;;基于Lucene的全文检索系统模型的研究和开发[J];暨南大学学报(自然科学与医学版);2009年05期
3 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
4 陈志敏;沈洁;林颖;周峰;;基于主题划分的网页自动摘要[J];计算机应用;2006年03期
5 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
6 陈翀,彭波,闫宏飞,王继民;一种词汇共现算法及共现词对检索系统排序的影响[J];清华大学学报(自然科学版);2005年S1期
7 崔彩霞;;停用词的选取对文本分类效果的影响研究[J];太原师范学院学报(自然科学版);2008年04期
8 耿骞;耿崇;;利用词语共现进行Ontology的概念获取[J];现代图书情报技术;2006年02期
中国硕士学位论文全文数据库 前7条
1 王平;基于用户偏好挖掘和主题搜索的情报推荐系统[D];浙江大学;2007年
2 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
3 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年
4 白毅;古建主题搜索引擎研究[D];北京化工大学;2008年
5 李晗;面向石油的主题搜索引擎研究[D];中国石油大学;2008年
6 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
7 孙轩;主题搜索引擎的关键技术研究与实现[D];武汉理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
2 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
3 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
4 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
5 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
6 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期
7 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期
8 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
9 茹强喜;刘永;;一种提高K近邻分类的新方法[J];电脑知识与技术;2010年08期
10 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
10 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
8 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
9 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
10 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
4 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
5 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
6 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
7 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
8 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
9 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
10 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
4 陈丛;;Hash算法原理及在快速检索中的应用[J];福建电脑;2009年11期
5 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
6 李智超;熊风;富羽鹏;马少平;;分布式大规模文本检索系统[J];广西师范大学学报(自然科学版);2007年02期
7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
8 朱素媛,马溪俊,梁昌勇;人工智能技术在搜索引擎中的应用[J];合肥工业大学学报(自然科学版);2003年S1期
9 孔伯煊;李祥;;基于Lucene\XML技术的Web搜索引擎设计与实现[J];航空计算技术;2006年04期
10 郭广军,胡玉平,戴经国;基于Java多线程的并行计算技术研究及应用[J];华中师范大学学报(自然科学版);2005年02期
中国博士学位论文全文数据库 前3条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 许林杰;中文文本分词研究[D];山东师范大学;2003年
2 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
3 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
4 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
5 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
6 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
7 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
8 孙猛;基于分类语义的搜索引擎中若干关键技术的研究与实现[D];东北大学;2005年
9 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
10 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 秦永平;网页信息共享技术[J];计算机应用;2000年02期
2 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
3 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
4 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
5 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
6 谢田静;关于网页设计的艺术性研究[J];市场周刊(研究版);2005年07期
7 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
8 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
9 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
10 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
中国重要会议论文全文数据库 前10条
1 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
8 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
9 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
7 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
8 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 王立群;搜索新生代[N];中国计算机报;2005年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
9 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
10 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026