收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

网页消重和聚类算法在高校搜索引擎中的研究与应用

党春辉  
【摘要】: 当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都还不能应用到实际应用中去。随着中国高校的数目和规模逐年增加,高校搜索引擎技术的落后产生的弊端也浮出水面。针对这些问题,该文着重对搜索引擎的基本工作原理、现有的网页消重技术和网页聚类技术进行了深入的研究和探讨,设计了高校搜索引擎系统。该文着重从以下几个方面做了研究和应用: 第一,对网页预处理过程中的网页表示模型进行了研究和改进:为了后续的聚类工作研究了向量空间模型,并在现有向量空间模型基础上进行了加权改进,解决了原来模型不能反映特征项的位置不同所占权重也不同和语义等问题;为了得到网页表示模型,对基于分块的网页正文提取进行了研究,给出网页分块算法的具体过程。 第二,对网页消重算法进行了研究和改进:针对Internet上大量重复和转载网页的问题,研究了基于距离的网页消重算法和全文分段签名算法,其中前者通过引入向量空间模型,通过计算网页相似度,大大的提高了网页消重的质量;对于后者则在原有的全文分段签名算法的基础上进行了改进,大大地缩小了数据集,解决了原有方法速度慢的问题。 第三,研究并改进了现有聚类算法:研究并比较了包括K均值聚类算法、EMClustering算法、基于容错粗糙集的聚类算法、最小-最大超盒聚类算法在内的聚类算法;在原有算法基础上提出了旋转最小-最大超盒聚类算法、基于容错粗糙集的旋转最小-最大超盒聚类算法,其中:前者利用模糊理论中的超盒理论来对聚类定义,解决了原有聚类算法对簇的形状识别和处理的局限;后者利用容错粗糙集的理论解决了大多数聚类算法只侧重于类内尽量相似,类间差异尽量大而导致的没考虑交叉语义存在的情况,使聚类结果更加可理解。 第四,在现有搜索引擎的基础上提出了高校搜索引擎系统并给出了网页消重和聚类算法在高校搜索引擎中的应用:其中,前者给出了高校搜索引擎的系统结构、工作原理和工作流程:后者给出各种算法在高校搜索引擎中的应用过程:包括网页预处理过程的网页正文提取、网页消重算法、以及网页聚类过程中K均值聚类算法,K-mediods算法,...,最小-最大超盒聚类算法等在高校搜索引擎中的应用。最后给出了各种算法的评价和比较。 经实验验证,本文提出的算法能够解决当前高校搜索引擎面临的基本问题,并优于大部分现有算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;世界首款在线联系人搜索引擎问世[J];计算机与网络;2008年11期
2 崔丽杰;刘伟;;基于用户兴趣的个性化搜索引擎的设计[J];计算机与现代化;2008年07期
3 ;网站搜索利器——中华搜索宝[J];电脑采购周刊;2003年25期
4 钟国韵;刘梅锋;;基于ASP技术的网络搜索引擎的开发[J];科技广场;2006年01期
5 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
6 王小林;刘宏申;;搜索引擎的设计研究[J];计算机技术与发展;2007年02期
7 孙雁群;周燕青;;人民银行内联网搜索引擎探讨[J];华南金融电脑;2007年04期
8 杨杰;;浅谈搜索引擎的原理及发展趋势[J];高校实验室工作研究;2008年02期
9 程彩凤;杜友福;;搜索引擎技术分析[J];科技信息;2007年01期
10 宋军杰;;“走走搜搜”:步入移动生活新时代[J];通信世界;2008年26期
11 王颖;;中文局域网搜索引擎的有关介绍[J];读与写(教育教学刊);2009年02期
12 杨倩晨;;浅析搜索引擎的运行机制[J];大众科技;2009年05期
13 黄美军;;搜索引擎中的软件技术浅析[J];科技传播;2010年14期
14 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
15 李树青;基于面向主题和面向分类相结合的搜索引擎[J];情报杂志;2005年10期
16 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
17 陈治平;林亚平;;基于最高响应比算法的WWW索引库更新方法[J];计算机科学;2003年05期
18 戴建中;GnetFtp搜索引擎的算法设计与实现[J];汕头大学学报(自然科学版);2005年03期
19 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期
20 白岩;董琦;康红;周芮;;网络搜索引擎[J];现代情报;2006年07期
中国重要会议论文全文数据库 前10条
1 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
2 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
5 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
6 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
7 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
8 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
9 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
10 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
2 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
3 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
6 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
7 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
8 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
9 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
10 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
中国重要报纸全文数据库 前10条
1 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
2 焦艳玲;枫叶之都告百度恶意排名[N];市场报;2007年
3 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
4 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
5 李一鑫;搜索排名的红与黑[N];财经时报;2007年
6 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
7 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
8 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
9 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
10 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978