收藏本站
《北京林业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

主题搜索引擎聚类算法的研究

李群  
【摘要】:当互联网走入我们的生活并逐渐改变这个世界的时候,搜索引擎,作为信息检索最有效的工具也逐渐被我们熟悉和使用。互联网给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。根据最近统计,在中国搜索引擎使用率达到81.9%,用户规模3.75亿。搜索引擎已经成为第一大网络应用服务,是用户获取信息的首要途径。 本文首先介绍了国内外搜索引擎技术的发展及研究现状,总结了目前常用的全文检索搜索引擎的基本工作原理和存在的问题,接着详细讨论了文本聚类的原理以及几种常有聚类算法和改进方向。本文通过大量实验,提出了词频变差的理论,并将该理论应用于主题词的提取。通过对聚类算法的研究,提出了最优密度选择聚类算法。并将此算法和层次聚类算法结合在一起进行文本聚类,优化了文本聚类技术,提升了搜索引擎查询性能。在此基础上实现了面向主题的文本聚类算法的搜索引擎。该搜索引擎与同类搜索引擎相比,更具有专业化特点,查询信息的准确度也有所提升。
【学位授予单位】:北京林业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

免费申请
【引证文献】
中国期刊全文数据库 前1条
1 王石奇;赵正旭;;基于小世界理论的工程信息网络检索的探究[J];河北省科学院学报;2014年02期
中国硕士学位论文全文数据库 前1条
1 陈晓伟;基于主题爬虫与文本分类的微博资讯智能生成策略研究[D];华中科技大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 罗文兵;吴润秀;王明文;朱莹婷;熊超;;基于结果聚类分析的个性化推荐模型[J];广西师范大学学报(自然科学版);2010年01期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
3 蔡东风;王智超;季铎;张桂平;;基于边界距离的多向量文本聚类方法[J];计算机工程与应用;2008年03期
4 李营;王儒敬;王大为;魏保子;;基于用户兴趣的搜索结果动态聚类算法[J];计算机工程与应用;2008年04期
5 李云;田素方;李拓;徐涛;;基于概念格的Web文本聚类[J];计算机工程与应用;2008年23期
6 陈敏;苗夺谦;段其国;;基于用户浏览行为聚类Web用户[J];计算机科学;2008年03期
7 杨彬;康慕宁;;基于用户反馈的搜索引擎选择及结果归并[J];计算机工程;2007年24期
8 王川;王大玲;于戈;马海涛;刘鑫钢;;基于用户行为模型的搜索引擎[J];计算机工程;2008年04期
9 高茂庭;王正欧;;基于文档标引图模型的文本相似度策略[J];计算机工程;2008年07期
10 孙越恒;李志圣;何丕廉;;基于局部搜索机制的K-Means聚类算法[J];计算机工程;2008年11期
中国硕士学位论文全文数据库 前6条
1 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
2 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
3 蔡岳;一种应用于搜索引擎的文本聚类算法[D];北京林业大学;2010年
4 贺晟;搜索引擎中主题网络爬虫的研究与设计[D];安徽大学;2010年
5 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
6 李伟雄;基于密度的聚类算法研究[D];湖南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
2 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
3 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
4 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
5 纪良浩;;协作过滤信息推荐技术研究[J];重庆邮电大学学报(自然科学版);2012年01期
6 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
7 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
8 李春杰;崔红霞;;基于多Agent搜索行为分析的用户兴趣模型[J];吉林大学学报(信息科学版);2010年02期
9 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
10 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
2 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
3 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
6 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
7 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
9 康卫鲜;叶德谦;;基于CURE的聚类算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
5 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
6 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
7 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
8 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
9 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
10 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
4 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
5 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
6 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
7 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
8 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
9 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
10 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 潘正高;;Web数据挖掘技术综述[J];电脑知识与技术;2009年15期
2 马晨;宋雯;;数字签名技术的研究与应用[J];电脑知识与技术;2012年05期
3 赵杰;唐术锋;朱延河;崔馨丹;;基于万向式关节的模块化自重构机器人[J];机器人;2010年05期
4 贾崇,陆玉昌,鲁明羽;一种支持高效检索的即时更新倒排索引方法[J];计算机工程与应用;2003年29期
5 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期
6 李亚楠;王斌;李锦涛;李鹏;;给互联网建立索引:基于词关系网络的智能查询推荐[J];软件学报;2011年08期
7 黄翔;王伟;张文博;魏峻;黄涛;;面向性能剖析的Web应用自动性能建模方法[J];软件学报;2012年04期
8 赵正旭;郭阳;刘贾贾;龙瑞;;万维网的小世界效应探讨[J];石家庄铁道大学学报(自然科学版);2010年02期
9 陈勇;张汉国;成筠;;基于Lucene的全文搜索引擎[J];现代计算机(专业版);2009年11期
10 张兴华;搜索引擎技术及研究[J];现代情报;2004年04期
【二级参考文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
3 乐兵;王明文;;基于遗传算法的动态文本聚类[J];江西师范大学学报(自然科学版);2006年03期
4 张爱国;邬群勇;王钦敏;;基于PostgreSQL数据库的GML数据存储[J];测绘科学;2008年01期
5 陈珺;;PostgreSQL在时空数据管理中的应用[J];测绘通报;2008年07期
6 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
7 李丽;朱国同;陈秀娟;井西利;;模拟退火算法的改进及在静校正中的应用[J];大庆石油地质与开发;2008年05期
8 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
9 李洁,高新波,焦李成;一种基于CSA的混和属性特征大数据集聚类算法[J];电子学报;2004年03期
10 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
中国博士学位论文全文数据库 前1条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前8条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
3 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
4 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
5 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
6 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
7 娄跃荣;基于Agent的元搜索引擎研究[D];烟台大学;2007年
8 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
2 梁跃进;;水利计算软件开发的基本方法[J];广西水利水电;1993年03期
3 李帮义;数据传输选择问题:算法设计和复杂性分析[J];系统工程学报;2005年03期
4 王俊松,吴真,储健;直流电路CAI系统的算法设计[J];仪器仪表学报;2005年S2期
5 冯昭昭,程学先;课表编排系统的设计与实现[J];湖北工业大学学报;2005年04期
6 朱永松,程曦;导线网平差算法设计与实现[J];湖北工业大学学报;2005年04期
7 何跃,蒋国银,苏应生;基于WEB的工作流管理系统设计与实现[J];计算机工程与应用;2005年33期
8 陈海山;吴芸;;广义表的二叉链式存储表示及其算法设计[J];计算机工程与应用;2005年35期
9 李海伦;唐全;;“程序设计”课程教学改革的研究与实践——加强算法设计教学,提高学生编程能力[J];计算机教育;2005年07期
10 唐建国;;浅谈C语言的教学[J];福建电脑;2006年04期
中国重要会议论文全文数据库 前10条
1 李永强;刘杰;李允公;李祥;;Daubechies小波基的算法设计[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
2 钟章建;黄玮;马万经;姚佼;;面向协调控制的交通小区划分算法设计与实现[A];2008第四届中国智能交通年会论文集[C];2008年
3 陈家照;罗寅生;;群智能优化算法研究[A];第三届中国智能计算大会论文集[C];2009年
4 张家超;孔媛媛;;结合SVM与免疫遗传算法设计IDS的检测算法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
5 张晋;;嵌入式电脑鼠运行算法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 孔垂柳;田地;;基于程序设计思想的C语言教学方案[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
7 宁泽洪;董占勇;徐达旺;;基于CCDF的微波功率统计测量的算法设计[A];2011年全国微波毫米波会议论文集(下册)[C];2011年
8 洪露;穆志纯;;一种新的克隆混沌调节算法的研究[A];第二十六届中国控制会议论文集[C];2007年
9 苟刚;黄伶俐;;电子地图安全显示算法设计与实现[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
10 赵保军;史采成;朱梦宇;张弘;;低信噪比红外图象信号处理系统算法设计[A];中国体视学学会图像分析专业、中国体视学学会仿真与虚拟现实专业、中国航空学会信号与信息处理专业第一届联合学术会议论文集[C];2000年
中国重要报纸全文数据库 前10条
1 ;算法设计的策略[N];电脑报;2003年
2 杨杨;姚期智:归去来兮[N];人民日报海外版;2007年
3 李剑 朱延峰 吴畏;勇于挑战“最高峰”[N];新清华;2007年
4 PALADIN;化整为零,变繁为简[N];电脑报;2003年
5 覃特;上海交大的胜利,谁的隐忧?[N];中国计算机报;2005年
6 ;突破五道“关”[N];计算机世界;2003年
7 王慧芳;江苏首届大学生程序设计竞赛举行[N];中国电子报;2008年
8 中国消费者报 胡军;国产DC品牌面临困局[N];中国消费者报;2005年
9 陈学宏;程序设计教学中的“紧”与“松”[N];中国电脑教育报;2003年
10 梅贤明 卓小康;研究生叫板高校的“及格线”[N];今日信息报;2005年
中国博士学位论文全文数据库 前10条
1 胡扬;人工代谢算法若干问题研究[D];中南大学;2010年
2 张常淳;基于MapReduce的大数据连接算法的设计与优化[D];中国科学技术大学;2014年
3 孙贺;算法设计中的若干前沿问题[D];复旦大学;2009年
4 廖鑫;高效隐写算法的设计研究[D];北京邮电大学;2012年
5 任志磊;组合优化问题的特化与泛化算法设计[D];大连理工大学;2013年
6 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
7 王赞;基于染色体自交叉Memetic算法的教学调度问题研究[D];天津大学;2010年
8 尤明厚;MIMO接收机技术与编码优化研究[D];北京邮电大学;2010年
9 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
10 牛云云;求解计算困难问题的膜计算模型与算法研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈熠;基于代谢路径的生物网络比对算法[D];西安电子科技大学;2009年
2 陈丹;基于遗传聚类的社团发现算法研究[D];西南交通大学;2014年
3 王丽;图论在算法设计中的应用[D];西安电子科技大学;2010年
4 王双记;类电磁机制算法的改进与应用[D];西安电子科技大学;2012年
5 苏联钦;基于局部信息的重叠社团发现算法研究[D];华中科技大学;2013年
6 李超;基于蚁群算法的移动Agent服务选择[D];山东大学;2014年
7 王胜训;蚁群算法的改进及TSP仿真研究[D];西安电子科技大学;2014年
8 熊卫卫;高校排课系统算法设计与实现[D];吉林大学;2004年
9 李海生;蜂群算法及其在垂直Web搜索中的应用[D];广州大学;2010年
10 刘旭;人工植物算法向地性算子的设计[D];太原科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026