收藏本站
《北京林业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

主题搜索引擎聚类算法的研究

李群  
【摘要】:当互联网走入我们的生活并逐渐改变这个世界的时候,搜索引擎,作为信息检索最有效的工具也逐渐被我们熟悉和使用。互联网给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。根据最近统计,在中国搜索引擎使用率达到81.9%,用户规模3.75亿。搜索引擎已经成为第一大网络应用服务,是用户获取信息的首要途径。 本文首先介绍了国内外搜索引擎技术的发展及研究现状,总结了目前常用的全文检索搜索引擎的基本工作原理和存在的问题,接着详细讨论了文本聚类的原理以及几种常有聚类算法和改进方向。本文通过大量实验,提出了词频变差的理论,并将该理论应用于主题词的提取。通过对聚类算法的研究,提出了最优密度选择聚类算法。并将此算法和层次聚类算法结合在一起进行文本聚类,优化了文本聚类技术,提升了搜索引擎查询性能。在此基础上实现了面向主题的文本聚类算法的搜索引擎。该搜索引擎与同类搜索引擎相比,更具有专业化特点,查询信息的准确度也有所提升。
【学位授予单位】:北京林业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 罗文兵;吴润秀;王明文;朱莹婷;熊超;;基于结果聚类分析的个性化推荐模型[J];广西师范大学学报(自然科学版);2010年01期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
3 蔡东风;王智超;季铎;张桂平;;基于边界距离的多向量文本聚类方法[J];计算机工程与应用;2008年03期
4 李营;王儒敬;王大为;魏保子;;基于用户兴趣的搜索结果动态聚类算法[J];计算机工程与应用;2008年04期
5 李云;田素方;李拓;徐涛;;基于概念格的Web文本聚类[J];计算机工程与应用;2008年23期
6 陈敏;苗夺谦;段其国;;基于用户浏览行为聚类Web用户[J];计算机科学;2008年03期
7 杨彬;康慕宁;;基于用户反馈的搜索引擎选择及结果归并[J];计算机工程;2007年24期
8 王川;王大玲;于戈;马海涛;刘鑫钢;;基于用户行为模型的搜索引擎[J];计算机工程;2008年04期
9 高茂庭;王正欧;;基于文档标引图模型的文本相似度策略[J];计算机工程;2008年07期
10 孙越恒;李志圣;何丕廉;;基于局部搜索机制的K-Means聚类算法[J];计算机工程;2008年11期
中国硕士学位论文全文数据库 前6条
1 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
2 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
3 蔡岳;一种应用于搜索引擎的文本聚类算法[D];北京林业大学;2010年
4 贺晟;搜索引擎中主题网络爬虫的研究与设计[D];安徽大学;2010年
5 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
6 李伟雄;基于密度的聚类算法研究[D];湖南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
2 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
3 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
4 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
5 纪良浩;;协作过滤信息推荐技术研究[J];重庆邮电大学学报(自然科学版);2012年01期
6 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
7 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
8 李春杰;崔红霞;;基于多Agent搜索行为分析的用户兴趣模型[J];吉林大学学报(信息科学版);2010年02期
9 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
10 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
2 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
3 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
6 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
7 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
9 康卫鲜;叶德谦;;基于CURE的聚类算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
5 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
6 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
7 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
8 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
9 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
10 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
4 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
5 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
6 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
7 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
8 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
9 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
10 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
3 乐兵;王明文;;基于遗传算法的动态文本聚类[J];江西师范大学学报(自然科学版);2006年03期
4 张爱国;邬群勇;王钦敏;;基于PostgreSQL数据库的GML数据存储[J];测绘科学;2008年01期
5 陈珺;;PostgreSQL在时空数据管理中的应用[J];测绘通报;2008年07期
6 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
7 李丽;朱国同;陈秀娟;井西利;;模拟退火算法的改进及在静校正中的应用[J];大庆石油地质与开发;2008年05期
8 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
9 李洁,高新波,焦李成;一种基于CSA的混和属性特征大数据集聚类算法[J];电子学报;2004年03期
10 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
中国博士学位论文全文数据库 前1条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前8条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
3 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
4 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
5 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
6 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
7 娄跃荣;基于Agent的元搜索引擎研究[D];烟台大学;2007年
8 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 苏建华;张灿;;聚类搜索引擎研究[J];新世纪图书馆;2009年06期
2 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
3 ;关键词搜索[J];每周电脑报;2000年38期
4 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
5 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
6 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
7 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
8 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
9 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
10 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 刘之涛;陈清才;孟宪军;王晓龙;;基于特征短语的网页在线聚类方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
2 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
3 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
4 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
5 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
9 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
10 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026