收藏本站
《沈阳工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

专业搜索引擎关键技术的研究

赵士青  
【摘要】: 随着Internet的飞速发展,Web的信息量成爆炸式增长,通用搜索引擎将面临着信息采集、存储等方面的巨大挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,然而包罗万象的结果显然不能满足特定用户(如某一领域的专业技术人员)对专业领域的精确搜索。因此,面向特定领域的搜索引擎即专业搜索引擎应运而生。 与通用搜索引擎不同,专业搜索引擎只采集Web中的部分信息,并对网页进行主题相关度判断,只保存与主题相关的网页,因此专业搜索引擎在查询的准确率和效率上都有显著的提高。 本文主要的研究工作就是针对专业搜索引擎,对实现专业搜索引擎的几个关键技术进行深入的理论研究和模块实现。在专业搜索引擎的信息采集方面,为尽可能的获取与主题相关的页面,首先给出一些与主题相关的专业网站的站点作为网络蜘蛛的起始站点,然后采用深度优先策略并对深度进行限制的方法抓取网页。同时对抓取的网页进行主题相关度判断,将认为相关的网页信息保存到数据库,将认为不相关的网页直接丢弃。在判断网页与主题的相关度方面,本文采用的方法是基于内容的向量空间模型算法。由于涉及到对中文信息的处理,因此需要实现中文分词技术。本文在对中文分词几种主要算法分析和研究的基础上,采用了最大正向匹配算法并对其进行了一定的修改来实现中文分词模块。 最终以面向计算机硬件产品信息的专业搜索引擎为例,设计和实现了网络蜘蛛、中文分词模块、信息过滤模块,实现了对相关网页信息的采集。实验结果表明系统具有较高的准确率,达到了良好的效果。
【学位授予单位】:沈阳工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
2 孙轩;主题搜索引擎的关键技术研究与实现[D];武汉理工大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
2 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
3 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
4 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期
5 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
8 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
9 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
10 程妮;;科学搜索引擎Scirus的工作流程初探[J];情报科学;2006年02期
中国硕士学位论文全文数据库 前2条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
2 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
【共引文献】
中国期刊全文数据库 前10条
1 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
2 王知津;张收棉;;网络计量学方法在网站评价中的应用及其理论模型[J];图书与情报;2006年03期
3 师小庆;袁志;王学成;;基于Web的学生信息检索系统设计[J];才智;2011年34期
4 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
5 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
6 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
7 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
8 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
9 刘双印;徐龙琴;沈玉利;;改进小生境遗传算法在元搜索引擎调度优化中的研究[J];重庆师范大学学报(自然科学版);2008年03期
10 高波;;基于语料统计树的专业信息库生成算法[J];常州工学院学报;2009年Z1期
中国重要会议论文全文数据库 前9条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
5 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
6 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
7 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
3 宋艳;CRM中基于CABOSFV改进算法的客户聚类研究[D];哈尔滨工程大学;2004年
4 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
7 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
7 许锦;基于本体的智能答疑系统研究与实现[D];江西师范大学;2010年
8 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
9 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
10 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 ;“比较”购物及其技术实现[J];互联网周刊;2000年10期
2 何中市;刘里;;基于上下文关系的文本分类特征描述方法[J];计算机科学;2007年05期
3 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
4 潘昊;谭龙远;;领域相关自适应的PageRank算法搜索策略[J];计算机应用;2008年09期
5 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期
6 苏占东,杨炳儒,游福成;基于信息挖掘的智能决策支持系统的结构设计[J];计算机应用研究;2005年03期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 何凌云,孙恒,王命延;Web信息自动搜索系统的设计与研究[J];计算机与现代化;2002年06期
9 张永革;;基于WPF的UI自动化测试[J];软件世界;2007年18期
10 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期
中国博士学位论文全文数据库 前2条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
2 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
3 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
4 谢冬松;基于Web的主题搜索应用技术研究[D];黑龙江大学;2007年
5 李君梅;基于Web Community识别的聚焦爬虫算法研究与设计[D];浙江大学;2008年
6 杨贞;基于本体的主题爬虫的设计与实现[D];合肥工业大学;2008年
7 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年
8 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
9 侯航;基于URL分析的主题网络机器人研究[D];电子科技大学;2009年
10 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前6条
1 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
2 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
3 姜琨;主题搜索引擎中的爬取技术研究[D];国防科学技术大学;2011年
4 史丛;网络搜索引擎的相关技术研究[D];山东科技大学;2011年
5 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
6 王腾飞;基于Solr的分布式实时全文检索系统的设计与实现[D];云南大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
2 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
3 赵鑫,武刚;搜索引擎的发展与展望[J];河北林果研究;2004年01期
4 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
8 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
9 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
10 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
中国硕士学位论文全文数据库 前1条
1 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 赵根;;网络蜘蛛搜索基本策略研究[J];软件导刊;2009年02期
2 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
3 李学勇,欧阳柳波,李国徽;非贪婪策略在WEB搜索中的应用[J];中央民族大学学报(自然科学版);2004年03期
4 李学勇,谭义红,田立军,欧阳柳波,李国徽;ε-贪婪策略在网络蜘蛛搜索策略中的应用[J];湖南工程学院学报(自然科学版);2004年02期
5 张玲,林亚平,陈治平,童调生;基于综合价值的Web主题信息搜集策略研究[J];系统仿真学报;2005年02期
6 熊金辉;张海雷;余波;金成珠;;中文农业信息资源整合平台的设计与实现[J];中国农学通报;2005年12期
7 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[J];现代情报;2007年09期
8 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[J];高校图书馆工作;2008年02期
9 霍永;罗钊;;垂直搜索引擎浅析[J];广西警官高等专科学校学报;2009年04期
10 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
中国重要会议论文全文数据库 前10条
1 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[A];福建省图书馆学会2008年学术年会论文集[C];2008年
2 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
3 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
5 袁特;顾新建;胡恒杰;许琦;;一种企业竞争情报系统的研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
6 王宁;王敏;冷荣新;;谈互联网上生物医学信息资源的获取[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
7 戴黎春;;Internet上的花式纱线资源[A];第十三届全国花式纱线及其织物技术进步研讨会论文集[C];2006年
8 高莉;;医学参考文献的查询与应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
9 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
10 朱凯;;网络资源的应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
2 巫宁;旅游专业搜索引擎风生水起[N];中国旅游报;2005年
3 李壮;专业搜索引擎涤荡搜索市场[N];中国高新技术产业导报;2005年
4 本报记者 童可;搜索引擎竞争升温行业细分时代来临[N];证券时报;2005年
5 本报记者  孙书博 郭望;搜索医药业的“百度”[N];医药经济报;2006年
6 本报记者  谢光飞;房地产专业搜索引擎要分市场一杯羹[N];中国经济时报;2006年
7 林洁珊;专业搜索引擎 特别信息一网打尽[N];江淮时报;2006年
8 记者  李佳师;朱剑涵:专家搜索引擎的商业价值[N];中国电子报;2007年
9 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
10 本报记者  李国训 实习记者 褚曼;雅虎中国重回门户[N];财经时报;2006年
中国博士学位论文全文数据库 前6条
1 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
4 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵士青;专业搜索引擎关键技术的研究[D];沈阳工业大学;2007年
2 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
3 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
6 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
7 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
8 张晓龙;网络蜘蛛垂直搜索算法的改进与实现[D];哈尔滨工程大学;2008年
9 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
10 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026