收藏本站
《河南大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

个性化垂直搜索引擎研究

李文泽  
【摘要】: 目前互联网领域主要的搜索引擎服务商如Yahoo、百度、Google等,为用户提供的都是横向的海量信息搜索。而在互联网不断更新和演化的现阶段,我们发现:普通网络用户想找到所需的资料简直如同大海捞针,海量的信息已经不再是发展的主要动力,意识和时效性才是真正的动力。互联网发展的关键不再是能否快速、大量地向用户提供和传递信息,而是能否实现使用户在期望的时间、期望的地点,以期望的方式和成本,获取期望的信息。然而综合搜索引擎可以满足大量信息的横向搜索,但很难兼顾搜索的准确度与相关度的质量。综合搜索引擎的价值在于在做大量的信息导航,对于信息需求相对集中、分类更加详细的行业客户缺乏导向。解决这个问题成为搜索发展的机会,也成为未来科研机构竞相研究的热点。垂直搜索这一新的搜索模式正是在这一背景下产生的。 本文主要的研究工作分为两个部分:第一部分通过理论研究分析,提出了对垂直搜索引擎信息采集算法的改进思路;第二部分通过对垂直搜索引擎的核心技术进行剖析,设计并实现了一个垂直搜索引擎的原型系统。正文部分分五章对研究内容进行详细介绍。 第一章绪论部分详细介绍了搜索引擎的发展历史,指出了目前综合搜索引擎所面临的问题以及解决这些问题的途径,即本文所研究的方向:垂直搜索引擎。通过和综合搜索引擎在信息服务以及关键技术上的比较分析,指出垂直搜索引擎存在的巨大优势和发展空间。最后,分析了垂直搜索引擎在国内外发展状况以及提出本文所要解决的问题。 第二章总体架构与信息采集部分给出了垂直搜索引擎总体架构的设计方案和工作流程,并对垂直搜索引擎自身特点进行分析。此外,在信息采集策略方面给出了常用的信息采集模型,并分析了目前通用的信息采集算法——基于向量空间模型的相似度匹配算法的核心思想及不足。最后,通过对本体的介绍,提出了构建基于本体知识库的智能化信息采集策略的实现思路来解决信息采集过程中一词多义和一义多词的问题。 第三章Lucene框架的研究部分对目前最优秀的开源全文检索框架Lucene进行了详细的分析。包括对全文检索技术的介绍,Lucene项目的来源和框架构成的介绍,以及Lucene所提供的索引和搜索功能中非常重要的倒排索引技术和评分机制的介绍,并给出了索引建立和搜索实现的核心程序代码。最后,还介绍了中文分词技术以及Lucene中分词的实现原理。 第四章垂直搜索引擎的实现部分结合Hertrix开源爬虫和Lucene框架设计并构建一个面向手机产品信息的垂直搜索引擎的原型系统。该系统分三个部分来实现,第一部分基于Heritrix框架实现了信息采集功能并设计了信息结构化抽取程序。第二部分设计了面向手机产品信息的分词工具,并利用Lucene框架实现了结构化文本信息的索引。第三部分设计了基于MVC架构的查询接口,并实现了原型系统的检索功能。从而为垂直搜索引擎在技术实现层面提供有益的借鉴和指导。 第五章总结与展望部分对本文工作进行了小结,并提出了垂直搜索引擎的发展趋势以及若干继续研究的方向。 搜索领域有句名言:“用户无法描述知道他要找什么,除非让他看到想找的东西”。微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,是互联网用户的搜索倾向从起初单纯的希望搜索内容全面向搜索内容全面、搜索准确率提高以及信息的时效增强转移的必然结果。并且,垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,将会提供更多、更专业、个性化的行业相关服务,与传统综合搜索相比,显得更为聪明且更具人性化。因此,垂直搜索引擎市场有其存在的必要性和广阔的发展前景,然而垂直搜索作为一项刚刚起步的新技术,还有许多需要改进和突破的地方,本文对垂直搜索引擎技术的研究将为垂直搜索的发展提供现实指导意义。
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 潘月姣;孟小军;;财经信息专业搜索引擎的设计与实现[J];情报探索;2008年12期
中国硕士学位论文全文数据库 前10条
1 程晔;基于蚁群优化神经网络的比较购物模型研究[D];安徽理工大学;2010年
2 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
3 李蓉;面向主题的搜索引擎的设计与实现[D];华东交通大学;2011年
4 江娟;垂直搜索引擎数据分析技术的研究与实现[D];华北电力大学(北京);2008年
5 李亚;垂直搜索引擎的研究与设计[D];武汉理工大学;2010年
6 刘邵斌;专家信息垂直搜索引擎关键技术研究与实现[D];中南大学;2010年
7 陶善菊;面向学科的主题词库构建及其应用研究[D];华中师范大学;2012年
8 刘育莲;手机产品垂直搜索引擎的设计与实现[D];西安电子科技大学;2012年
9 王建彬;基于相似性博客推荐技术的研究与应用[D];内蒙古科技大学;2012年
10 谢剑芳;Web主题信息检索中的语义检索技术研究及应用[D];重庆交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 宋晖,马范援,刘晓强;Ontology-based Knowledge Extraction from Hidden Web[J];Journal of DongHua University;2004年05期
3 沈丹莹;;Web信息智能过滤系统WIIFS的研究[J];福建电脑;2006年01期
4 王德峰;李东;;搜索引擎Google的体系结构及其核心技术研究[J];哈尔滨商业大学学报(自然科学版);2006年01期
5 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
6 刘炜,陈俊杰;一种基于Agent的智能元搜索引擎框架[J];计算机工程与应用;2005年03期
7 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
8 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
9 尹春天,古志民,廖祥文;基于搜索结果的预取技术研究[J];计算机应用;2004年01期
10 齐冬梅,杜亚军,李战胜;个性化智能搜索引擎爬行虫算法[J];计算机应用;2004年S2期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
6 谭娟;李伯虎;;面向语义的C4ISR/Sim集成系统设计[J];北京航空航天大学学报;2006年10期
7 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期
8 冯仲科;祝晓轶;李亚东;聂敏莉;隋宏大;;基于ArcIMS Java Connector与Ajax技术构建林业WebGIS[J];北京林业大学学报;2008年S1期
9 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期
10 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
中国重要会议论文全文数据库 前10条
1 屈志勇;武捷;;基于WEB的气象档案管理系统[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
2 刘更;贺朝霞;;面向复杂机械产品的协同仿真环境研究[A];第四届中国CAE工程分析技术年会论文集[C];2008年
3 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
4 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
5 杨卫明;;独立式搜索引擎原理及存在问题分析[A];2008年计算机应用技术交流会论文集[C];2008年
6 吴泳锋;刘钊;朱小冬;王红亮;;分布式GIS数据共享的技术展望[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
7 冯仲科;李亚东;王佳;;基于ArcIMS Java Connector与Ajax技术构建林业WebGIS[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
8 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
10 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 胡沙;面向服务的模具企业信息系统集成平台关键技术研究[D];华中科技大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年
8 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年
9 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
10 汪楚娇;语义环境下提升机故障人工免疫诊断方法研究[D];中国矿业大学;2010年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
4 杨立志;基于语义网的图像检索算法的研究[D];广西师范学院;2010年
5 刘巧红;柔性制造系统实时监控系统的设计与实现[D];郑州大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
8 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
9 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
10 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓福泉;对使用CNMARC610字段著录自由词的探讨[J];国家图书馆学刊;2004年04期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 李宝凤;李臻;李云;;论体育学术期刊论文中主题词的正确标引[J];北京体育大学学报;2008年12期
4 杨丹;曹俊;;基于Web2.0的社会性标签推荐系统[J];重庆工学院学报(自然科学版);2008年07期
5 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
6 汪定伟,唐志文;企业信息化中的人机交互式业务过程重构方法[J];东北大学学报;2000年04期
7 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期
8 唐远洋,黄尔嘉;知识挖掘技术与网络教育资源的组织[J];电化教育研究;2003年06期
9 王宏钧,张惠苓,李翠荣;标引关键词[J];大连民族学院学报;2000年01期
10 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
中国重要会议论文全文数据库 前1条
1 宋洪鑫;李蕾;刘冬雪;;中文博客标签调查分析及标签推荐模型的研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
2 刘彦鹏;蚁群优化算法的理论研究及其应用[D];浙江大学;2007年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵广利;社会网络分析技术在博客媒体信任度中的研究与应用[D];内蒙古科技大学;2011年
2 赵永玲;基于神经网络的控制系统故障诊断研究[D];大庆石油学院;2003年
3 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
4 韩红芳;基于小世界网络的搜索引擎算法研究[D];河北工业大学;2004年
5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
6 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
7 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
8 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
9 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
10 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
【二级引证文献】
中国期刊全文数据库 前1条
1 姚争儿;李志奎;;基于移动终端的学习资源垂直搜索引擎系统研究[J];现代计算机(专业版);2013年02期
中国博士学位论文全文数据库 前1条
1 靳宇倡;工作场所攻击行为及其影响因素的研究[D];西南大学;2010年
中国硕士学位论文全文数据库 前10条
1 袁黎明;双边网络视角下搜索引擎平台的隔离机制演进[D];北京交通大学;2011年
2 王灵峰;高考信息推荐引擎的设计与实现[D];暨南大学;2011年
3 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
4 余坦;个性化技术资料支持帮助系统的研究与实现[D];湖南大学;2009年
5 唐华姣;主题搜索引擎索引技术的研究与实现[D];重庆交通大学;2011年
6 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
7 金婵鸣;垂直搜索引擎系统的研究[D];武汉理工大学;2010年
8 史君;支持HTML5技术的嵌入式移动浏览器研究与开发[D];大连海事大学;2012年
9 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
10 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
3 薛云,陈俊杰;Internet上有关元搜索引擎的研究与设计[J];电脑开发与应用;2003年04期
4 赵新慧,朱伟;分布协作式搜索引擎系统的初步探索[J];抚顺石油学院学报;2003年04期
5 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
6 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
7 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
8 陈俊杰,薛云,宋翰涛,陆玉昌,余雪丽;基于Agent的元搜索引擎的研究与设计[J];计算机工程与应用;2003年10期
9 王霞,杨炳儒;Web搜索结果挖掘的研究与应用[J];计算机工程与应用;2003年14期
10 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
中国硕士学位论文全文数据库 前1条
1 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 蓝永健;;基于Lucene的校园网垂直搜索引擎的设计与实现[J];广东教育学院学报;2009年03期
2 杜建亮;;金融信息垂直搜索引擎的技术探讨[J];科学之友(B版);2009年06期
3 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
4 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
5 段寿建;夏幼明;甘健侯;;基于本体和Lucene的语义检索模型设计与实现[J];现代电子技术;2009年12期
6 周超;石爱萍;杨帆;;一种基于语义Web的信息检索模型研究[J];科学技术与工程;2010年10期
7 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期
8 郑伟;于双元;;基于语义的垂直搜索引擎的研究[J];计算机时代;2007年12期
9 赵德平;刘阳;李鹏;;基于Lucene的房产信息垂直搜索引擎的研究[J];沈阳建筑大学学报(自然科学版);2011年01期
10 赵建伟;郑诚;吴永俊;;基于语义查询扩展的垂直搜索研究[J];计算机工程;2010年12期
中国重要会议论文全文数据库 前10条
1 赵泽宗;;比喻推理建构[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
2 戴佐培;宋春林;李净;;基于本体的中医经络知识库的设计与开发[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
3 伍伟;李兵;曾诚;;基于本体的语义Web服务注册平台研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
4 陈冬菊;张发军;宫玉梅;何天白;;在嵌段共聚物本体与薄膜中结晶形貌的研究[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
5 广凯;魏鲲;金浩;潘金贵;;一种基于本体的上下文模型[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 康达周;徐宝文;陆建江;李言辉;;支持语义web模糊本体的描述逻辑(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 蔡畅;李宏伟;李勤超;;语义层次的知识推理研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
10 王肃;杜军平;高田;;基于本体与知识背景的模式挖掘框架研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
中国重要报纸全文数据库 前10条
1 黄家艳;川电三公司汽机工程处本体班获“全国质量信得过班组”[N];西南电力报;2002年
2 刘春田;“知识”的本体和现实形态[N];中国知识产权报;2004年
3 中国科学院计算技术研究所 黄瑞史忠植;加强知识的共享与重用[N];计算机世界;2007年
4 大江;锻造本体竞争力[N];中国改革报;2006年
5 深圳报业集团驻京记者 陆云红;改革开放之窗创新活力之都[N];深圳特区报;2006年
6 任玉岭;一本体现时代精神的哲学教材[N];光明日报;2003年
7 郑敏;也谈本体杂文[N];中国文化报;2003年
8 宏图三胞高级副总裁 花贵侃;企业需要一条灵活的“尾巴”[N];电脑商报;2007年
9 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
10 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
中国博士学位论文全文数据库 前10条
1 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
2 安杨;基于本体的网络地理服务中的关键问题研究[D];武汉大学;2005年
3 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
4 罗正鸿;D_4/APAEDMS本体开环共聚及其数学模拟[D];浙江大学;2003年
5 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
6 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
7 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
8 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
9 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
10 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
2 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
3 李亮;基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D];中国地质大学(北京);2010年
4 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年
5 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
6 胡宜敏;农业搜索个性化平台的研究与设计[D];中国科学技术大学;2009年
7 于景茹;基于Lucene的职位垂直搜索引擎的研究与实现[D];郑州大学;2011年
8 龙俊浩;基于Lucene数码产品垂直搜索引擎系统设计与实现[D];华南理工大学;2012年
9 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
10 黄荣游;基于Lucene的网络文学垂直搜索引擎的研究与实现[D];浙江工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026