收藏本站
《哈尔滨工程大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

主题搜索引擎研究

李东升  
【摘要】:本文首先概述了Web的产生及其发展历程,从而引出了网络检索问题,并分析了目前搜索引擎的工作原理及其研究现状。由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难再为用户提供一个全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请求。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。 本文在仔细研究当前主题搜索引擎相关文献的基础上,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出了一个主题型Web搜索器(TSWS),它是主题搜索引擎的核心。接下来详细论述了TSWS三个主要部分HTML解析器、Web爬行器和文本分类器的设计与实现。其中在HTML解析器的设计中,本文从HTML解析的一般概念入手,结合搜索引擎系统的特殊要求,建立了访问HTML语法树中链接结点的快速索引表,并特别考虑了解析器的容错性。在Web爬行器的设计中,本文结合对已收集页面内容的相关度评价,采用有效的启发式函数对待收集URL进行相关度预测,使得下载的相关网页数量最大化,不相关网页数量最小化,加快检索速度,节约网络资源。在文本分类器的设计中,用传统信息检索的空间向量模型改进了朴素贝叶斯分类器,提高了它的分类精度。最后本文也详细讨论了基于链接结构的Web检索技术的发展现状以及发展前景。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.092

【引证文献】
中国硕士学位论文全文数据库 前2条
1 傅士光;基于主题的搜索引擎的研究与实现[D];北京交通大学;2007年
2 程锦;面向网络化制造资源的垂直搜索技术研究与应用[D];贵州大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 王强 ,王继成 ,武港山 ,张福炎;Web文档清洗系统中HTML解析器的开发[J];计算机应用研究;2002年02期
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前4条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
3 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
4 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
2 高磊;徐东平;;启发式算法在搜索引擎的应用[J];电脑知识与技术(学术交流);2007年02期
3 耿桦;李媛;朱炜;潘金贵;;Web搜索中的数据挖掘技术研究[J];计算机科学;2005年04期
4 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
5 杨沅钊,吴薇,喻晓莉,杨国才;搜索引擎排名改进算法分析[J];农业网络信息;2005年02期
6 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
7 张海龙;王莲芝;;自动文本分类特征选择方法研究[J];计算机工程与设计;2006年20期
8 吴安清;张颖江;涂军;;主题搜索ROBOT综合爬行策略的研究[J];武汉理工大学学报;2006年02期
9 赵仲孟,何世丽,袁薇,沈钧毅;主题搜索引擎中专业网页索引集构造算法的研究[J];微电子学与计算机;2005年01期
10 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
中国重要会议论文全文数据库 前1条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前5条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
5 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
2 周兴俊;嵌入式浏览器图像处理技术研究[D];华中科技大学;2004年
3 曾雪强;潜在语义分类模型的研究[D];江西师范大学;2005年
4 李娟;高校数字图书馆中基于Agent的智能信息采集与服务原型系统的研究[D];武汉理工大学;2005年
5 胡一俊;web超链分析应用研究[D];武汉大学;2005年
6 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
7 张焕哲;基于主题概念树的科技文本分类方法研究和实现[D];华北电力大学(北京);2006年
8 宋飞;嵌入式浏览器若干关键技术的设计与实现[D];浙江大学;2006年
9 杨珂;基于Linux的智能内容过滤防火墙的研究与实现[D];西北大学;2006年
10 浦海晨;基于机器学习的数字信息处理技术研究与实现[D];南京航空航天大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
2 齐冬梅,杜亚军,李战胜;个性化智能搜索引擎爬行虫算法[J];计算机应用;2004年S2期
3 边清刚,潘东华;Tomcat和Apache集成支持JSP技术探讨[J];计算机应用研究;2003年06期
4 靖培栋;宋雯斐;;中文全文检索系统截词检索的实现研究[J];情报科学;2006年06期
5 翟凤文;赫枫龄;左万利;;字典与统计相结合的中文分词方法[J];小型微型计算机系统;2006年09期
6 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
7 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
8 杨晓江;李丽娟;田俊华;李艺;;面向基础教育的Web资源垂直服务体系研究[J];中国远程教育;2006年07期
9 顾小清;促进IT与跨学科课程整合的主题学习模式[J];电化教育研究;2003年03期
10 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
中国博士学位论文全文数据库 前4条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
4 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 童品德;竞争情报及其在我国发展问题研究[D];首都经济贸易大学;2006年
2 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年
3 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年
4 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
7 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年
8 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
9 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
10 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
【二级参考文献】
中国期刊全文数据库 前5条
1 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
2 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
3 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
4 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
5 曹玉霞;搜索引擎新思维[J];现代图书情报技术;2000年05期
中国博士学位论文全文数据库 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前2条
1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
【相似文献】
中国期刊全文数据库 前10条
1 胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
2 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
3 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
4 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
5 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
6 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
7 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
8 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
9 阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期
10 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
9 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 记者 何边;网络化激活人工智能[N];计算机世界;2001年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 杰逊;微软的第一个搜索技术掌门[N];中国计算机报;2006年
9 冯卫东;科技将这样改变我们的生活[N];科技日报;2008年
10 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
2 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
3 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
4 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
5 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
6 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
7 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
8 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
9 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
10 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026