收藏本站
《大连理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

通用中英文专业搜索引擎技术的研究及应用

刘峰  
【摘要】:随着Internet应用的逐渐普及和发展,因特网上的信息资源正在呈几何级数增长。它给人们带来极丰富信息的同时也向人们提出了一个重要的研究课题,即如何从浩如烟海的信息资源中迅速而准确地检索出人们所需要的信息,Web搜索引擎因此应运而生。近年来广而不精的综合性搜索引擎已无法满足人们获取专业信息的需要,小型专业化的搜索引擎正成为未来发展的一个趋势并且将具有广泛的应用前景。 本文介绍了综合搜索引擎的基本结构和基本原理,分析了搜索引擎各部件的关键技术、工作原理、实现方法和设计原则。其中着重讨论了网络机器人(Robot)技术、中文分词技术、向量空间模型(Vector Space Model,简称VSM)技术、文本自动分类技术、Web数据索引技术和Web数据检索技术。在此基础上,对各关键技术的实现方法进行了深入的研究。在实现中,采用了多线程、特征提取及加权、相关度排序等若干技术,有效地提高了Web数据采集、分类、检索的效率和质量。 在综合搜索引擎技术的基础上,本文针对专业信息搜索的特点,通过限制搜索网站范围和自动分类过滤专业信息相结合的专业化方法设计了一个中英文专业搜索引擎。同时为了提高本搜索引擎的广泛的适用性,本文采用了通用化的设计思想,使得该引擎可以方便地构建成各种专业的专业搜索引擎。在提高分类、分词的效率和质量方面,本搜索引擎采用了下列关键技术:对用户日志进行分析来动态修正词库;定期增加已分类专业文档来动态扩充训练文档集。与传统的分词和索引技术相比,本搜索引擎通过建立首字视图和词条视图简单有效地实现了专业词汇的分词统计;通过建立文档与词条的双向索引,解决了倒排表索引建立维护困难的问题,并节省了大量存储空间。 本文采用Java为开发工具,以Oracle8i为数据库,实现了一个实用的通用中英文专业搜索引擎。经过比较充分的测试,该搜索引擎已应用于国家科技部973预研项目人类脑计划和神经信息学研究中。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前3条
1 周岚;;浅谈如何提高多媒体检索系统的效率[J];科学之友;2011年08期
2 潘月姣;孟小军;;财经信息专业搜索引擎的设计与实现[J];情报探索;2008年12期
3 王晓娜;陈靖;王天林;;实现一个垂直育儿搜索引擎系统的探索[J];网友世界;2012年19期
中国硕士学位论文全文数据库 前10条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
3 杨永升;搜索引擎质量评价体系实证分析研究[D];合肥工业大学;2006年
4 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
5 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
6 林海霞;中文专业搜索引擎优化策略研究[D];燕山大学;2006年
7 刘彤;垂直搜索引擎技术研究与应用[D];西安建筑科技大学;2008年
8 白毅;古建主题搜索引擎研究[D];北京化工大学;2008年
9 黄堃;基于本体的面向股票领域搜索引擎的实现技术研究[D];天津大学;2007年
10 吴聪聪;基于本体的专业搜索引擎的研究[D];天津大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 谭淑英,刘丽华;Web Robot技术及其Java实现[J];中南工业大学学报(自然科学版);2001年03期
【共引文献】
中国期刊全文数据库 前10条
1 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
2 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
3 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
4 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
5 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
6 刘双印;徐龙琴;沈玉利;;改进小生境遗传算法在元搜索引擎调度优化中的研究[J];重庆师范大学学报(自然科学版);2008年03期
7 张玉连;张敏;张波;;一种扩展的向量空间模型-隐含语义索引模型研究[J];燕山大学学报;2006年01期
8 景虹;詹海生;;基于Web Services的个性化学习资源获取[J];中国远程教育;2006年08期
9 孟祥增;;基于内容的图像网络教学资源检索研究[J];中国远程教育;2008年04期
10 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
中国重要会议论文全文数据库 前7条
1 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
2 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
5 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
6 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
3 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年
4 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年
5 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
6 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
9 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
10 刘孝男;移动P2P网络中基于方向搜索算法的研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
6 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
7 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
8 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年
9 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
10 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
3 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
4 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
5 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
6 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
7 张爱国;邬群勇;王钦敏;;基于PostgreSQL数据库的GML数据存储[J];测绘科学;2008年01期
8 陈珺;;PostgreSQL在时空数据管理中的应用[J];测绘通报;2008年07期
9 夏利;赵静波;井惟栋;王光兴;;基于对象池模式的自适应线程池技术[J];东北大学学报;2006年10期
10 杜俊红,乐全明,滕欢,滕福生;基于J2EE/CORBA的调度自动化系统体系设计[J];电力系统自动化;2004年06期
中国博士学位论文全文数据库 前8条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 张国云;支持向量机算法及其应用研究[D];湖南大学;2006年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
6 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
2 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
3 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
4 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
5 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
6 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
7 索金琳;基于桌面的特定领域meta-search系统的研究[D];河海大学;2002年
8 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
9 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
10 吴政;面向侨务信息主题的搜索引擎[D];华侨大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 张斌;周尔宁;张丹阳;;SEO技术在网站开发中的应用[J];电脑编程技巧与维护;2009年14期
2 蔡巍;;自适应Meta标签在SEO中的应用[J];电脑知识与技术;2011年32期
3 方跃胜;董辉;姚宏亮;;多格式文档搜索引擎索引系统设计与实现[J];长江大学学报(自然科学版);2012年07期
4 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
5 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期
6 武茂枝;郝晓玲;;旅游搜索引擎的盈利模式及SWOT分析[J];情报杂志;2011年S2期
7 王明国;胡敬仓;;主题搜索引擎中网络蜘蛛搜索策略的研究[J];微处理机;2011年04期
8 方跃胜;姚宏亮;;法律搜索引擎索引系统同步模块的设计与实现[J];计算机技术与发展;2011年03期
9 张博;蔡皖东;;面向主题的网络蜘蛛技术研究及系统实现[J];微电子学与计算机;2009年05期
10 关慧芬;师军;马继红;;网络爬行技术研究[J];郑州轻工业学院学报(自然科学版);2008年06期
中国博士学位论文全文数据库 前1条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
2 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
3 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
4 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
5 陆晓丹;基于.NET多层架构的内容管理系统的研究[D];太原科技大学;2011年
6 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
7 石磊;模式可扩展的攻击图技术研究与实现[D];国防科学技术大学;2011年
8 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
9 何速;社会电视用户行为分析[D];国防科学技术大学;2011年
10 朱道敏;基于BP网络的元搜索引擎研究[D];东北师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前2条
1 王宇,张秀彬;集群式智能型网络信息自动搜寻与采集系统[J];上海交通大学学报;1998年08期
2 王亭,赵轶群,秦耕;WebLight——一个集文档管理的综合搜索引擎[J];计算机系统应用;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 高波,查志琴,郑成增;基于Intranet的搜索引擎[J];计算机应用研究;2004年02期
2 谢建国;;一个小型搜索引擎的系统设计[J];漳州职业技术学院学报;2007年04期
3 杨倩晨;;浅析搜索引擎的运行机制[J];大众科技;2009年05期
4 洪光宗,王皓;搜索引擎Robot技术实现的原理分析[J];现代图书情报技术;2002年01期
5 孙敏燕;黄丽;;搜索引擎算法研究[J];软件导刊;2007年23期
6 周二翠;寇广增;夏晨曦;;基于相关查询的搜索引擎查询自动分类研究[J];情报杂志;2011年02期
7 刘秋梅;郑耿忠;;基于WebSphinx的搜索引擎设计及研究[J];江西图书馆学刊;2006年01期
8 张海东;;关于对互联网信息采集支持静态页面和动态页面的抓取技术的文献综述[J];科学咨询(决策管理);2007年03期
9 常为领;孙瑞志;高万林;;基于ROBOT的农业信息搜索引擎设计[J];农业网络信息;2006年08期
10 刘承启;邓庚盛;江婕;徐健锋;;基于用户行为分析的搜索引擎研究[J];计算机与现代化;2008年09期
中国重要会议论文全文数据库 前10条
1 刘春霞;郭丽虹;;基于多线程和数据库的Web搜索引擎的实现[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 ;The Research of Layered Behavior Fusion Architecture for Mobile Robot[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 ;Modeling and Control of Wheeled Mobile Robot Based on Hybrid Automata[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
4 ;On the Efficiency of Robot Fish[A];第二十六届中国控制会议论文集[C];2007年
5 ;Walking Gait Generation Using Linear Inverted Pendulum Model for Biped Robot with Heterogeneous Legs[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 ;Nonsingular Geometric Path Following Control of a Wheeled Mobile Robot[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
7 ;Virtual Reality Simulation of 5dof Upper-limb Rehabilitant Robot based on Repetitive Control[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 ;Jerk-Bounded and-Continuous Trajectory Planning for a 6-DOF Serial Robot Manipulator with Revolute Joints[A];中国自动化学会控制理论专业委员会C卷[C];2011年
9 傅鶴齡;;風電系統工程設計與整合[A];2010年海峡两岸功能性复合材料论坛论文集[C];2010年
10 ;An Adaptive Localization Method for Autonomous Digging Robot[A];第二十六届中国控制会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 郑杏果;细分和调优之后期待新突破[N];中国计算机报;2007年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 关欣;音乐信号自动分类相关算法研究[D];天津大学;2009年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
9 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
10 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026