收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息检索结果聚类系统的研究

孟庆顺  
【摘要】: 在这个信息化时代,由于互联网的迅速发展和电脑的普及,万维网已成为具有无穷潜力的信息索取和信息交换能力的全球信息资源中心,它对人类的各方面行为将产生日益重要的影响。 搜索引擎能自动地对互联网上的信息进行动态的收集和存储,并按照用户的检索返回相关的结果集。它的出现大大提高了人类检索信息的能力。不过,随着网络信息量的迅速增长,传统的搜索引擎技术也只能为用户提供越来越长的检索结果列表。用户不得不从中进行按照自己标准的二次检索,浪费了时间和效率。 可以通过将检索结果依据内容划分为相应的类别,使得用户能够更快捷准确地对检索结果进行浏览。这种引入了聚类分析技术的方法是对传统搜索引擎工作方式的一种改进。 本文首先对数据挖掘的概念和应用领域进行简要介绍,并比较系统和详细的总结了聚类方法的概念、特点,重点阐述了几种经典聚类算法的实现方式,并分别分析了它们的优势和不足之处。 在总结本领域的相关工作的基础上,本文提出了一种新的结合了基于短语显著性分值的特征项提取和K-means算法的文本聚类方法,显著性分值的确定考虑了传统的TFIDF相对词频以及短语的上下文独立性等因素,通过实验确定了显著性分值公式的系数。 使用Java语言实现了一个基于上述思想的比较完整的文本聚类系统,包括文档预处理,特征项抽取,文档向量化和聚类过程等。通过实验,对聚类效果进行测试并对结果做了分析。从实验结果看,本系统能达到令人满意的聚类效果,并且与现有方法相比,在时间复杂度方面有一定的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
2 龚静;李安民;;一种改进的k-means中文文本聚类算法[J];湖南工业大学学报;2008年02期
3 索红光;孙珊珊;王玉伟;梁玉环;;基于主题短语的搜索引擎结果聚类[J];计算机系统应用;2010年03期
4 李营;王儒敬;王大为;魏保子;;基于用户兴趣的搜索结果动态聚类算法[J];计算机工程与应用;2008年04期
5 刘海峰;姚泽清;刘守生;;一种基于模糊加权的改进文本聚类方法[J];微电子学与计算机;2011年09期
6 单蓉;;文本聚类算法的比较研究[J];内江科技;2008年12期
7 汤寒青;王汉军;;改进的K-means算法在网络舆情分析中的应用[J];计算机系统应用;2011年03期
8 康恺;林坤辉;周昌乐;;基于主题词频数特征的文本主题划分[J];计算机应用;2006年08期
9 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
10 张磊;;搜索引擎综述[J];泰州科技;2008年08期
11 龚静;田小梅;;基于文本表示的特征项权值计算方法[J];电脑开发与应用;2008年02期
12 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期
13 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
14 刘飞;高红艳;;基于数据挖掘的Web信息检索的研究[J];江西科学;2008年02期
15 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
16 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
17 杨瑞龙;朱庆生;谢洪涛;;快速混合Web文档聚类[J];计算机工程与应用;2010年22期
18 朱颢东;钟勇;赵向辉;;一种优化初始中心点的K-Means文本聚类算法[J];郑州大学学报(理学版);2009年02期
19 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期
20 杨延锟;许少华;;基于FVSM的核聚类算法在文本聚类中的应用[J];长江大学学报(自然科学版)理工卷;2010年01期
中国重要会议论文全文数据库 前10条
1 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 张邦佐;基于正例和无标记样例学习研究[D];吉林大学;2009年
6 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 孟庆顺;Web信息检索结果聚类系统的研究[D];天津大学;2007年
2 陈平;中文聚类搜索引擎中主要技术的研究[D];吉林大学;2009年
3 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
4 袁晓峰;Web文档聚类在搜索引擎中的应用研究[D];江苏大学;2009年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
8 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
9 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
10 王礼礼;基于潜在语义索引的文本聚类算法研究[D];西南交通大学;2008年
中国重要报纸全文数据库 前10条
1 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
2 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
3 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
4 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
5 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
6 李一鑫;搜索排名的红与黑[N];财经时报;2007年
7 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
8 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
9 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
10 李同;怎样选择“付费搜索引擎”[N];光明日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978