收藏本站
《苏州大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

面向丝绸领域的垂直搜索引擎关键算法研究

张小莉  
【摘要】: 垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域,如化学。 本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。 最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前3条
1 郭姣;基于WebGIS的五金产业信息搜索系统的设计与实现[D];山西财经大学;2011年
2 黄荣游;基于Lucene的网络文学垂直搜索引擎的研究与实现[D];浙江工业大学;2011年
3 陈靖;垂直育儿搜索引擎研究[D];西南大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期
2 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
3 仲婷;金浩;冯茜芦;潘金贵;;一种基于结构分析的改进HITS算法[J];广西师范大学学报(自然科学版);2007年02期
4 杨德仁;顾君忠;;一种知识型网络爬虫的设计与实现[J];华东师范大学学报(自然科学版);2006年03期
5 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期
8 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
9 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
10 石柯;;网格环境下的数据库访问和集成[J];计算机工程;2008年08期
【共引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
3 王京山;;网络传播演进与全球脑的形成[J];北京印刷学院学报;2007年01期
4 许有田;任琦;郑建功;;城市工程测量一体化集成平台的设计与实现[J];测绘科学;2009年S1期
5 梁海洋;;医学文献检索课教学内容与教学方法改革的主要途径[J];时代教育(教育教学版);2009年08期
6 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
7 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
8 钟斌青;刘湘南;;基于空间化PageRank算法的人口流动空间集聚性分析[J];地理与地理信息科学;2011年05期
9 王玉珍;;Google的PageRank技术分析[J];电脑学习;2007年05期
10 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
3 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
4 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
5 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
6 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 张桂平;蔡东风;徐立军;尹宝生;陈建军;;以互联网为知识源的基于语段分析的交互式机器翻译技术的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 罗永红;无缝运输信息网格的若干关键技术研究[D];中南大学;2011年
3 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
4 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
5 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
6 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
7 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
4 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
7 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
8 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 罗娅丽;基于WEB的旅游商品交易系统的设计和开发[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨晓超;电子地图商务网站应用探析[J];测绘信息与工程;2004年02期
2 仲婷;金浩;冯茜芦;潘金贵;;一种基于结构分析的改进HITS算法[J];广西师范大学学报(自然科学版);2007年02期
3 肖宝;施雅贤;蒋运承;;基于语义的旅游信息搜索引擎[J];广西师范大学学报(自然科学版);2009年03期
4 李广丽;刘觉夫;;面向URL的网络机器人软件模型的研究与实现[J];华东交通大学学报;2007年01期
5 雷雯;;GIS在旅游业中的应用[J];合作经济与科技;2009年18期
6 金志刚,张钢,舒炎泰;基于网络性能的智能Web加速技术——缓存与预取[J];计算机研究与发展;2001年08期
7 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
8 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
9 金鑫,林春梅,陈家训;面向社区型电子商务的客户关系管理系统设计[J];计算机工程;2003年06期
10 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
中国博士学位论文全文数据库 前4条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
4 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
2 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
3 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
4 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
5 陈先;智能搜索引擎关键技术研究与实现[D];哈尔滨工程大学;2003年
6 李欣;基于概念检索的智能信息检索技术研究[D];华中师范大学;2004年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
9 刘轶;农村0~3岁儿童母亲社会支持系统研究[D];西北师范大学;2005年
10 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 于震;辽宁省丹东市母婴健康信息的受众媒介接触行为研究[D];辽宁大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙莉苹,张永奎;网上信息检索中BOT站点爬行方法[J];电脑开发与应用;2001年10期
2 储荷婷;国际互联网检索工具:特点、比较和发展方向[J];大学图书馆学报;1997年03期
3 王桂云;基于Robot搜索引擎的信息检索技术[J];甘肃科技;2002年11期
4 刘雁书,方平;网络信息影响力评价方法[J];高校图书馆工作;2002年02期
5 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
6 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
7 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
8 韩亚洪,许卓明,董逸生;Web信息检索中主题精选算法的研究与改进[J];计算机工程与应用;2004年17期
9 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
10 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
【相似文献】
中国期刊全文数据库 前10条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
中国重要会议论文全文数据库 前10条
1 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
6 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 孙建国;;成像原理、成像过程及偏移像场的动力学特性[A];中国地球物理学会第二十届年会论文集[C];2004年
9 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 杨文柱;徐林昊;郝亚南;陈少飞;李天柱;;个性化的智能Web查询助手的设计与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
2 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 四川大学计算机学院 陈华英;组建基于 Web 方式的数据仓库[N];网络世界;2000年
7 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
8 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
9 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
10 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
中国博士学位论文全文数据库 前9条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
5 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
6 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
7 李效东;自治异构数据源的集成查询处理[D];中国科学院研究生院(软件研究所);2002年
8 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
9 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 张小莉;面向丝绸领域的垂直搜索引擎关键算法研究[D];苏州大学;2008年
2 方加沛;垂直搜索引擎主要技术研究[D];暨南大学;2010年
3 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
4 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
5 吕晓昶;面向交易信息的垂直搜索引擎搜索机制研究与实现[D];东北石油大学;2011年
6 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
7 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
8 刘辉;信息集成系统中面向领域的Web信息抽取研究[D];西安电子科技大学;2008年
9 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年
10 肖烽;基于XML和XSLT的Web信息抽取研究与设计[D];电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026