收藏本站
《武汉大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web挖掘的搜索引擎技术研究

胡小睿  
【摘要】:Internet的迅速发展使其成为当今世界上最大的信息库,它是全球范围内传播信息的重要渠道,其中以WWW的发展最为迅速。但Internet是一个开放的网络,网上资源的分布相当分散,并且网上也没有统一的管理和结构,这导致了搜索的困难。如何快速、准确地从浩瀚的信息资源中找到有用的信息是网络用户面临的一个大问题,因此希望有新的工具来定位信息资源。 网络信息搜索技术结合了现代信息检索技术和WWW的相关技术,旨在研究开发出一个智能化的搜索软件,能在网络上自动地进行信息发现和索引,建立结构化索引库,向用户提供查询服务。 随着互联网的迅猛发展,搜索引擎的发展越来越需要借助各种技术来进一步推动。作为知识挖掘新的研究内容的web挖掘,由于自身在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大借鉴作用。所以搜索引擎通过应用Web挖掘技术,可以增强信息处理能力,使得信息检索发展到一个新的水平。 本文从开发和研究的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,并介绍了一个针对中小型企业的基于Web挖掘的小型智能搜索系统WMSE,它通过基于Web结构挖掘思想对检索结果进行优化排序,为用户提供更加准确的信息,更好的满足用户的检索需求。 在文章的主体部分,以搜索引擎的设计流程为主线,描述了搜索引擎的几个子系统:搜集子系统、索引子系统、检索子系统和用户界面子系统。其中,特别强调了所采用的相关技术和关键算法。 最后,简要介绍了系统的性能,并对系统今后的发展提出了一些设想。
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前1条
1 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
中国硕士学位论文全文数据库 前8条
1 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
2 许建豪;打折商品搜索引擎的设计与实现[D];广西大学;2011年
3 谢志文;基于MVC模式的电子商务自适应网站设计与实现[D];东华大学;2008年
4 王昊;数据挖掘技术在企业竞争情报系统中的应用[D];西安建筑科技大学;2007年
5 赵旭东;互联网舆情指数挖掘方法研究[D];哈尔滨工业大学;2007年
6 周旭;Deep Web数据库的发现与分类研究[D];河北大学;2008年
7 赵联冠;分布式信息检索引擎的分析与实现[D];华东师范大学;2010年
8 杨亚群;校园网有害信息监测系统设计与实现[D];西南交通大学;2011年
【参考文献】
中国期刊全文数据库 前8条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
3 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
4 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
5 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
6 金燕,李建华,杨宇航;WWW上的全文信息检索技术[J];计算机应用研究;1999年01期
7 陈海龙;搜索引擎的评价标准及方法研究[J];情报杂志;2001年09期
8 徐建华;网络搜索引擎原理、特性分析及未来发展趋势[J];图书情报工作;2000年08期
【共引文献】
中国期刊全文数据库 前10条
1 黄德玲;网络中文搜索引擎的比较研究[J];安徽教育学院学报;2004年04期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
4 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
5 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
6 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
7 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
8 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
9 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
10 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
10 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
7 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
8 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
9 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
10 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 韩微微;基于web日志的网络课程使用状况信息采集及评价的研究[D];哈尔滨师范大学;2010年
3 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
6 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
7 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
8 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
9 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王希瑶;浅析搜索引擎技术及技巧[J];电脑知识与技术;2005年21期
2 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期
3 单红花;;web数据挖掘探讨[J];电脑知识与技术;2006年02期
4 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
5 王熙照,王丽娟,袁方,湛燕;Web用户访问模式挖掘[J];河北大学学报(自然科学版);2002年04期
6 杨德仁;顾君忠;;一种Web查询接口的语义模型[J];华东师范大学学报(自然科学版);2006年05期
7 胡师彦;XML原理与应用[J];哈尔滨商业大学学报(自然科学版);2001年04期
8 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
9 李木金,王光兴;一种基于Web的网络管理模型及实现[J];计算机研究与发展;1999年10期
10 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
中国博士学位论文全文数据库 前1条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
2 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
3 许林杰;中文文本分词研究[D];山东师范大学;2003年
4 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
5 陈鑫卿;搜索引擎技术中的Web结构挖掘算法研究[D];山西大学;2003年
6 王书舟;基于Web挖掘的自适应网站研究[D];哈尔滨理工大学;2003年
7 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
8 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
9 张敏;基于Web挖掘的个性化信息检索研究[D];山东科技大学;2004年
10 陈涛;深层网络信息资源分析与获取策略研究[D];东北师范大学;2005年
【二级引证文献】
中国期刊全文数据库 前5条
1 黎明;;基于嵌入式Web的智能监控系统[J];重庆师范大学学报(自然科学版);2009年03期
2 王青;成颖;巢乃鹏;;网络舆情监测及预警指标体系研究综述[J];情报科学;2011年07期
3 曹树金;郑凌;陈忆金;;网络舆情突发异常识别及关键算法研究[J];图书情报知识;2012年01期
4 娄建玮;;高职院校学生网络舆情分析系统的研究[J];潍坊学院学报;2011年02期
5 李彩强;刘林;;一种新型的网络教育教务答疑模型[J];西南师范大学学报(自然科学版);2011年03期
中国博士学位论文全文数据库 前1条
1 蒋敬田;基于用户浏览行为的深度网络挖掘[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前6条
1 曾奉尧;基于社会网络的网络舆情挖掘技术与研究[D];电子科技大学;2011年
2 韩璐;基于MVC模式的在线答疑系统设计与实现[D];辽宁科技大学;2012年
3 李兴芳;校园社区服务平台的设计与研究[D];河北农业大学;2012年
4 罗引;互联网舆情发现与观点挖掘技术研究[D];电子科技大学;2010年
5 李波;基于网络舆情监测的高校思想政治教育研究[D];中北大学;2010年
6 董亚倩;高校网络舆情演变规律及安全评估指标体系构建研究[D];山东理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
2 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
3 邹涛,张福炎;网络信息搜寻技术与发展[J];计算机工程与科学;1998年04期
4 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
5 李广健,张蕾;网上搜索引擎的几个理论问题[J];情报科学;1999年04期
6 章琳,张保明;WWW检索工具比较研究[J];情报学报;1998年04期
7 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
8 陆建平;;论搜索引擎的原理和检索特性[J];图书馆杂志;1999年09期
9 王忠,周士波;Internet英文搜索引擎评析[J];图书情报工作;1999年04期
10 张爽,李彭城,张硕;搜索引擎特性分析[J];计算机系统应用;1999年09期
【相似文献】
中国期刊全文数据库 前10条
1 于海涛;;Web挖掘技术在搜索引擎中的应用[J];齐齐哈尔师范高等专科学校学报;2009年06期
2 李树青;崔北亮;;基于个性化信息推荐服务的Web搜索引擎技术综述[J];情报杂志;2007年08期
3 朱蓓,朱胜坚,刘艳;网络环境下查找信息资源的方法[J];中华医学图书情报杂志;2003年05期
4 程晓俊,朱卫平;浅谈超链挖掘技术在搜索引擎中的应用[J];福建电脑;2005年08期
5 杨占华;杨燕;;数据挖掘在智能搜索引擎中的应用[J];微计算机信息;2006年12期
6 蒋望东;黄发良;;基于WEB的数据挖掘研究综述[J];湖南工程学院学报(自然科学版);2007年01期
7 王雅戈;Openfind搜索引擎功能解析[J];江西图书馆学刊;2005年02期
8 唐利;蓝强;;对网络搜索引擎的比较研究[J];重庆文理学院学报(自然科学版);2006年04期
9 韩建福;卢苇;;文档聚类在Web搜索结果中的应用研究[J];中国科技信息;2006年23期
10 付昕;;Google在信息检索中的应用[J];情报探索;2008年07期
中国重要会议论文全文数据库 前10条
1 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
2 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李智超;余慧佳;马少平;;使用支持向量机进行作弊页面识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
7 孙斌;;使用内存汇集的新闻搜索索引更新[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 陈魁;荣莉莉;;标准元搜索引擎——概念及其模型[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 魏琳;儒豹手机搜索入围2008中国新媒体年度评选名单[N];江苏科技报;2008年
2 钱铮;日本下一代搜索引擎开发路途崎岖[N];中华新闻报;2006年
3 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
4 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
5 林海;“鱼群理论”破解搜索营销迷局[N];中国高新技术产业导报;2007年
6 西平;搜索厂商呼吁:明确区分自然结果与广告[N];中国经济时报;2007年
7 ;李彦宏:从小就是一个很倔的人[N];财经时报;2005年
8 李一鑫;搜索排名的红与黑[N];财经时报;2007年
9 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
10 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
3 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
4 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
9 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
2 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
3 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
4 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年
5 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
6 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 贾爱军;面向创新设计的多层次Web信息检索研究[D];四川大学;2005年
9 杨春伟;Web挖掘及其在网络搜索引擎中的应用研究[D];中国石油大学;2007年
10 张会;搜索引擎的研究与设计[D];电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026