收藏本站
《浙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎若干关键技术的研究

王晓伟  
【摘要】: 随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,包罗万象的结果显然不能满足用户精确搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。 与通用搜索引擎不同,垂直搜索引擎的网络蜘蛛只采集Web中的部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行(Crawling)时避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和效率。 本文提出了基于主题的自适应的分词技术,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的查全率和查准率。 本文还提出了基于父网页的主题相关度预测算法(CPAP)、基于链入网页的主题相关度预测算法(CPAH)和TPR主题预测算法。CPAP利用了锚文本和父网页的主题相关度等信息进行预测;CPAH在预测主题相关度时综合考虑了链接的数量和质量;TPR算法则将网页的主题相关性和权威性相结合,从而有效地防止了“主题漂流”现象。 为了解决普通隧道技术随着探索半径的增大,主题无关网页呈指数级增加的问题,本文提出了稀疏隧道技术,稀疏隧道技术使专业网络蜘蛛在整个Web中拉网式地探索未知网页,从而实现“疏而不漏”地挖掘新的Web Community。 最后是系统的设计与实现,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的体系结构和具体实现技术。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

手机知网App
【引证文献】
中国期刊全文数据库 前3条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
中国博士学位论文全文数据库 前1条
1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘凤灵;基于Nutch的漏洞垂直搜索引擎[D];北京邮电大学;2011年
2 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
3 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
4 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
5 薛煜阳;农业搜索引擎倒排索引缓冲机制研究[D];新疆农业大学;2011年
6 金川明;垂直搜索引擎研究与实现[D];云南大学;2011年
7 于景茹;基于Lucene的职位垂直搜索引擎的研究与实现[D];郑州大学;2011年
8 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
9 闫毛毛;基于Lucene教学资源搜索引擎的设计与实现[D];西南交通大学;2011年
10 汪明强;基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现[D];河北工业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
4 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
5 程文涛;师雪霖;;以本体为指导的Web网页信息抽取方法[J];北京化工大学学报(自然科学版);2011年04期
6 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
7 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
8 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
9 蔡晓白;樊孝忠;;疾病命名短语识别的最大熵方法[J];北京理工大学学报;2006年06期
10 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
中国重要会议论文全文数据库 前3条
1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
3 魏玖长;危机事件社会影响的分析与评估研究[D];中国科学技术大学;2006年
4 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
5 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
6 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
7 任双桥;支撑矢量机理论与应用研究[D];国防科学技术大学;2006年
8 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
9 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
2 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
3 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
4 施洋;模板独立的网页信息抽取研究[D];复旦大学;2011年
5 金川明;垂直搜索引擎研究与实现[D];云南大学;2011年
6 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
7 叶继平;基于Lucene的全文信息检索技术的研究与应用[D];江南大学;2012年
8 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
9 孙良;一种分布式智能信息检索系统的研究与实现[D];浙江大学;2002年
10 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
【二级引证文献】
中国期刊全文数据库 前9条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
3 荣广辉;毛宁;陈庆新;;基于百度的模具经验性知识搜索语言研究[J];模具工业;2013年06期
4 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
5 张红斌;曹义亲;;混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J];现代图书情报技术;2011年03期
6 文必龙;彭成晖;;元搜索引擎在油田领域信息分布式搜索的应用[J];计算机系统应用;2012年05期
7 焦强;束怡;戴昌林;;药学垂直搜索引擎平台的建立与技术研究[J];药学进展;2010年04期
8 郝志勇;庄永龙;张学工;;基础医学科研进展信息聚合平台构建[J];医学信息学杂志;2010年06期
9 徐勇;薛建芳;;高校就业信息平台的垂直搜索引擎实现[J];中小企业管理与科技(下旬刊);2013年03期
中国重要会议论文全文数据库 前2条
1 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
2 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国博士学位论文全文数据库 前1条
1 靳宇倡;工作场所攻击行为及其影响因素的研究[D];西南大学;2010年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
3 檀康;基于深度网页爬虫搜索引擎原型的研究和实现[D];东华大学;2010年
4 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
5 袁黎明;双边网络视角下搜索引擎平台的隔离机制演进[D];北京交通大学;2011年
6 范先爽;基于个性化服务的汽车信息搜索引擎的研究[D];武汉理工大学;2011年
7 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
8 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
9 刘亚东;分布式医学搜索引擎的研究与实现[D];北京邮电大学;2011年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
2 张君;李保秀;;垂直搜索引擎中网络蜘蛛的设计[J];福建电脑;2008年04期
3 陈丽萍;;一种垂直搜索引擎主题相关性改进算法[J];电脑知识与技术;2009年29期
4 霍永;罗钊;;垂直搜索引擎浅析[J];广西警官高等专科学校学报;2009年04期
5 海涛;郑玲;江娟;;垂直搜索引擎中数据采集的主题相关性算法研究[J];中国电力教育;2007年S1期
6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
7 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
8 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
9 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
10 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
中国重要会议论文全文数据库 前10条
1 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 谷宝军;徐月敏;加藤晴朗;乔勇;吴登龙;金三宝;;浆膜间隧道技术应用于尿路重建的临床研究[A];第十五届全国泌尿外科学术会议论文集[C];2008年
5 陈洪林;沈明玉;;VPN在企业网络整合中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 胡沁春;罗文钦;;电子商务中的虚拟专用网技术[A];第十七次全国计算机安全学术交流会暨电子政务安全研讨会论文集[C];2002年
7 袁彪;冯朝胜;袁丁;;用隧道技术改进和完善一种攻击源定位方法的研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
8 赵冰;牛风喜;岳维东;;VPN技术在莱钢的应用[A];第十一届全国自动化应用技术学术交流会论文集[C];2006年
9 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 张雪;彭宇行;孙志刚;刘锋;;基于对等网的隧道技术研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
4 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
5 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
6 李瀛寰;雅虎中文搜索从分词开始[N];中国计算机报;2006年
7 潘志 郑涌波;只买对的 不买贵的[N];网络世界;2002年
8 郑志延;为过渡到IPv6热身[N];计算机世界;2007年
9 罗万明;IPv6穿越隧道[N];计算机世界;2007年
10 钟凯文;虚拟通道能省钱[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
6 张颖江;基于增强型第二层隧道协议的隧道代理防火墙系统的研究[D];武汉理工大学;2006年
7 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
8 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
9 吴贤国;面向NAT用户的IPv6隧道技术研究[D];中国科学院研究生院(计算技术研究所);2006年
10 李惠凯;叶酸与食管上皮内瘤变风险的相关性研究[D];中国人民解放军军医进修学院;2013年
中国硕士学位论文全文数据库 前10条
1 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
2 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
3 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
4 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
5 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年
6 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
7 刘邵斌;专家信息垂直搜索引擎关键技术研究与实现[D];中南大学;2010年
8 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
10 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026