收藏本站
《西北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

风险主题搜索引擎相关技术的研究与应用

常庆  
【摘要】: 主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技术包括中文分词、主题爬虫、索引、分布式存储等,本文重点研究网络资源的爬虫和索引的主题搜索技术,具有重要的应用价值。主要工作包括: 1.提出了一种基于内容和链接分析相结合计算主题相关度的搜索策略。基于Web超链接评价算法考虑了链接结构和页面之间的引用关系,但忽略了页面与主题的相关性。基于内容评价的算法只注重文本在主题搜索中的重要性,而忽略了Web结构的作用。综合的搜索策略利用基于内容的评价来提高搜索内容与主题的相关度,同时利用基于链接结构的评价来提高主题资源搜索的覆盖率。 2.改进了Shark-search算法。从URL队列维护和检索时间的角度出发进行算法的改进,提高了Shark-search算法的时空效率,在主题相似度计算方法上应用了向量空间模型;在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,从待访问网站的时间性能因素出发,改进了PageRank算法。 3.给出了基于改进倒排表的索引器设计方案,从索引文件本身的结构出发进行改进,采用分级的倒排表索引组织结构,提高了索引创建的效率。在索引更新部分设计了索引器的批量索引方法与增量索引方法,实现了索引文档的动态更新。将改进后的算法与基于Nutch的索引技术相结合,在此基础上实现了一个风险主题搜索引擎索引的建立与维护。 4.基于开源项目Nutch,设计并实现了一个风险主题搜索引擎,把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析,证明了系统可以为用户提供完整准确的风险主题信息查询服务。 本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)支持。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 罗兴军;白晓波;;基于事件驱动模型的搜索引擎设计[J];电脑知识与技术;2011年28期
2 赵蓉英;陈必坤;;基于Nutch的图情博客搜索引擎的设计与实现[J];情报科学;2012年04期
中国硕士学位论文全文数据库 前5条
1 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
2 白晓波;基于事件驱动模型的搜索引擎的研究及原型系统设计[D];湖南大学;2010年
3 杨丹波;应用Web数据挖掘的主题元搜索引擎设计与实现[D];清华大学;2009年
4 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
5 胡平;基于Nutch的科技项目主题搜索引擎研究[D];杭州电子科技大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
2 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
3 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
4 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
5 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
6 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
7 应志伟,柴佩琪,陈其晖;文语转换系统中基于语料的汉语自动分词研究[J];计算机应用;2000年02期
8 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
9 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期
10 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
5 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
6 马国彦;;花园路径现象修辞学初探[J];毕节学院学报;2009年11期
7 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
8 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
9 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
10 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
4 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 姜云洲;齐德昱;;一种基于XML的付费搜索服务业务流模型[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
9 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
中国博士学位论文全文数据库 前10条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
4 曾武灵;滨海生态旅游区游客重游意愿形成机制研究[D];大连理工大学;2011年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
8 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
9 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
10 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
3 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
4 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
7 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
8 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
9 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
3 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
4 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
5 吕传宇,李华,耿虎;一种适合于专题式元搜索引擎的信息检索策略[J];重庆大学学报(自然科学版);2004年07期
6 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
7 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
8 李晓明;刘建国;;搜索引擎技术及趋势[J];电脑与电信;2008年05期
9 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
10 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
中国硕士学位论文全文数据库 前10条
1 刘文艳;基于深度优先策略的频繁导出子图挖掘算法[D];西安电子科技大学;2009年
2 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
3 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
4 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
5 童品德;竞争情报及其在我国发展问题研究[D];首都经济贸易大学;2006年
6 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年
7 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年
8 雷万保;元搜索引擎关键技术研究[D];西北工业大学;2007年
9 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年
10 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
【二级引证文献】
中国期刊全文数据库 前2条
1 方玲炜;苏忠琳;郑立军;;手机产品垂直搜索引擎的设计与实现[J];计算机与网络;2013年05期
2 付强;;基于Lucene的高校图书垂直搜索引擎的研究与实现[J];太原师范学院学报(自然科学版);2011年04期
中国博士学位论文全文数据库 前1条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
2 王红;高校图书馆检索平台的设计与实现[D];华东师范大学;2011年
3 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
4 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
5 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
6 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
7 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
8 成锐;基于lucene面向主题的手机搜索引擎的研究与实现[D];电子科技大学;2012年
9 胡平;基于Nutch的科技项目主题搜索引擎研究[D];杭州电子科技大学;2011年
10 张丽莎;林业动态信息快速搜索与集成[D];中南林业科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
5 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
6 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
7 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
8 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
9 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
10 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
中国博士学位论文全文数据库 前3条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
3 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前3条
1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
【相似文献】
中国期刊全文数据库 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
3 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
4 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
5 王琳琳;;基于HTML解析器的Web信息提取技术[J];郑州轻工业学院学报(自然科学版);2008年06期
6 肖展飞,洪流,蔡庆生;个性化Web主题信息监控系统的实现[J];计算机应用;2004年04期
7 邵晓良,刘红;Web主题信息采集中信息主题的识别[J];现代图书情报技术;2004年10期
8 王兰成;基于EMM中文抽词算法的XMARC主题信息挖掘[J];情报学报;2005年01期
9 王金华;吴荣泉;;基于主题的数据订阅分发技术[J];计算机工程;2006年14期
10 刘光洁;李忠范;李民;杨鑫;;基于协同进化遗传算法的主题信息采集研究[J];情报科学;2008年10期
中国重要会议论文全文数据库 前10条
1 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
5 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
8 袁崇谦;;基于模糊掩模方法的遥感图像预处理研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
9 马英民;;论革命历史类博物馆现代展示理念与手法[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
10 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
2 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
3 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
4 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
5 卢至虎;“让一张新闻纸能阅读三天”[N];中国新闻出版报;2006年
6 朱启明;纪念邮票领风骚[N];中国邮政报;2007年
7 杜星 喻彬 蔡佩;广州流行“拼车”第四种交通方式?[N];中国改革报;2005年
8 孙伟;“中国制造”心仪“机器人”产业[N];中国质量报;2004年
9 李晓钢;有效建立数据交换与共享机制[N];大众科技报;2006年
10 记者 虞珊珊通讯员 夏福军 颜昌慧 实习生 郭冬妮 刘锈鸿;中国-东盟港口发展与合作论坛会徽首次亮相[N];广西日报;2007年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
3 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
4 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
8 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
9 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
10 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
2 刘文君;基于膜计算优化算法的语义主题爬虫研究[D];西华大学;2013年
3 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
4 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
5 张一凡;基于文档频率的分级主题模型[D];北京邮电大学;2011年
6 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
7 张倩;用于网络评论文本挖掘的主题模型研究[D];北京交通大学;2014年
8 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
9 王桂珍;基于主题间关联关系的文本可视分析[D];浙江大学;2012年
10 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026