收藏本站
《重庆大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于WWW的聚类引擎研究

张伟  
【摘要】: 随着WWW技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富,现有的万维网信息检索技术和方法已经不能满足用户对信息的快速性与有效性要求。搜索引擎是目前最主要的万维网信息检索工具,然而搜索引擎的效果还不能令人满意。因此研究新的万维网信息检索技术已成为一个很重要而又很困难的问题。 数据挖掘旨在提取数据中隐含的、未知的、有用的、非一般的模式或知识,又称数据库中的知识发现。聚类是数据挖掘的基本方法之一。聚类通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。随着社会的信息化和各种媒体的数字化,万维网数据挖掘逐渐成了一个研究热点。 信息检索技术和数据挖掘技术相结合,可使搜索引擎上升到高的理论与应用水平。把新的万维网数据挖掘技术应用到搜索引擎中去,为万维网信息的利用提出了新的解决方案,将会引起搜索引擎方面一场新的革命。因此,显而易见进行基于WWW的聚类引擎研究有着十分重要的意义。 本论文的研究目的是在系统地回顾了万维网信息检索、数据挖掘、搜索引擎以及聚类的应用研究现状基础上,总结目前存在的问题,并提出相应的解决方法。特别希望通过聚类方法自动组织搜索引擎的搜索方案,便于用户发现真正需要的万维网信息。 本论文主要的研究内容和创新工作体现在以下几点: (1)对万维网信息检索、数据挖掘、搜索引擎以及聚类的应用研究现状进行分析和概述,进而指出基于WWW的聚类引擎研究是一个新的具有挑战性的前沿性课题。 (2)研究基于Rough集理论中的差异矩阵,并在引入扩充差异矩阵的基础上,提出了一种基于Rough集理论的不完备数据分析方法ROUSTIDA。该方法充分利用Rough集分析方法的优点,只需利用信息系统提供的信息,不需要另外附加信息,计算简单、直观。 (3)分析以关键词组作为自然语言信息特征的优点,构建利用后缀数组进行关键词组提取的方法,提出了发现右完整字符串的算法find_和得到文档完整子字符串数组的算法combine__,并进一步对所提的算法进行分析,最后给出实例以验证所提算法的正确性与有效性。 (4)介绍遗传算法的概念、算法结构、运算算子及主要存在问题;提出了一 WP=5 种基于遗传算法的聚类新方法MGA,该方法有两个主要优点:一是通用性强,可以对包含数值属性和符号属性的大数据集进行聚类;二是提高了数据挖掘的效率与质量。 (5)构建了一个基于数据挖掘的搜索引擎原型系统,它能够以语义的、在线的、树型的方式对搜索引擎的搜索结果进行聚类(即SOTC方法),并可处理中文万维网信息。 (6)论文最后除对研究工作进行总结外,还对今后的研究方向进行了展望
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前1条
1 马慧芳;郭治成;;文本自动分类在搜索引擎中的应用研究[J];情报杂志;2005年12期
中国博士学位论文全文数据库 前1条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
中国硕士学位论文全文数据库 前5条
1 周晓红;基于内容与链接的页面价值算法研究[D];电子科技大学;2010年
2 周登朋;搜索引擎搜索结果的聚类研究[D];上海交通大学;2007年
3 李培德;搜索引擎检索结果聚类方法的研究与改进[D];燕山大学;2007年
4 王琼;元搜索引擎结果聚类优化的研究与实现[D];苏州大学;2008年
5 胡国东;基于后缀数组聚类的元搜索引擎的设计与实现[D];吉林大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 李再军,林宏基,林锦贤;面向个人的信息服务[J];福州大学学报(自然科学版);1999年05期
2 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
3 尹旭日,陈世福;一种基于Rough集的缺省规则挖掘算法[J];计算机研究与发展;2000年12期
4 陈智健;;WWW上Meta-Search的研究与实现[J];计算机科学;1999年04期
5 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
6 张伟;廖晓峰;吴中福;;一种基于遗传算法的聚类新方法[J];计算机科学;2002年06期
7 于洋,查建中,唐晓君;基于学习的遗传算法及其在布局中的应用[J];计算机学报;2001年12期
8 胡静,李金龙,曹先彬;模拟退火算法与遗传算法结合及多目标优化求解研究[J];计算机应用与软件;2000年11期
9 曾福兴;搜索引擎[J];情报学报;1999年S2期
10 汪挺;WWW信息查询技术展望[J];情报学报;1997年S1期
【共引文献】
中国期刊全文数据库 前10条
1 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
2 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
3 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
4 梅灿华;孟庆全;祁炯;李明;;分辨矩阵构成与约简同步的方法[J];安徽工程科技学院学报(自然科学版);2008年02期
5 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
6 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
9 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
10 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
中国重要会议论文全文数据库 前10条
1 ;Application of Rough Sets in Intelligent Control[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
2 ;A Reduction Method About Fuzzy Rules Based on Rough Sets[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
3 ;The Method of the Intelligent Decision Based on the Rough Set[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
4 ;Study of Rough Set Fault Diagnosis System Based on Wavelet Packet Analysis[A];第七届国际测试技术研讨会论文集[C];2007年
5 ;The Constructing Algorithm of Classification Knowledge Model Based on Information Entropy[A];第七届国际测试技术研讨会论文集[C];2007年
6 孔怡青;孙燕唐;;一种新型个性化信息收集发送器的建立[A];OA’2000办公自动化国际学术研讨会论文集[C];2000年
7 黄飞江;吴海涛;边玉敬;卢晓春;;基于C/S和B/S混合模式的毕业生就业管理系统[A];OA’2007办公自动化学术研讨会论文集[C];2007年
8 殷积东;刘博;王少辉;;基于粗糙集理论和关联规则的腐蚀区域纹理特征检测算法研究[A];图像图形技术研究与应用(2010)[C];2010年
9 HONGSHENG SU;;ROUGH SETS APPROACHES FOR EQUIPMENT SERVING STRATEGIES BASED ON DISCRETE MARKOV CONTROL AND DECISION PROCESS[A];Proceedings of the 4th International Conference on Quality and Reliability[C];2005年
10 庞清乐;曹银杰;穆健;郎丰法;;基于粗集理论的小电流接地系统故障选线研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
3 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
4 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
5 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
6 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
7 李绍成;基于静电感应和显微图像的油液磨粒监测技术研究[D];南京航空航天大学;2009年
8 文振华;基于静电感应的航空发动机气路监测技术研究[D];南京航空航天大学;2009年
9 戴毓;石油期货市场波动性与风险管理研究[D];南京航空航天大学;2009年
10 刘慧君;用户浏览模式挖掘方法与应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 张成雷;地层三维建模空间数据组织与查询优化[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 韩冬振;远程诊断中心的设计与实现[D];郑州大学;2010年
8 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
9 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
10 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
3 刘晖,李明禄;基于抽象状态机的网格系统设计和分析[J];电子学报;2003年S1期
4 史庆伟;赵政;朝柯;;一种基于后缀树的中文网页层次聚类方法[J];辽宁工程技术大学学报;2006年06期
5 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
6 文坤梅,卢正鼎,陈莉,邓曦;元搜索引擎中检索结果排序的优化方法[J];华中科技大学学报(自然科学版);2003年03期
7 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
8 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
9 张志强,邢春晓,周立柱,孙静,钱乾;SESQ系统的一种查询优化策略[J];计算机研究与发展;2004年10期
10 易高翔;胡和平;;一种基于容错粗糙集的Web搜索结果聚类方法[J];计算机研究与发展;2006年02期
中国博士学位论文全文数据库 前7条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 薛云皎;基于智能主体的分布式构件库相关技术研究[D];复旦大学;2006年
4 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
5 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
6 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
7 吕琳;基于Multi-agent的协同制造资源共享的相关理论与技术研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈晓平;WWW上搜索引擎返回结果的模糊聚类研究[D];河海大学;2002年
2 李勇;智能检索中基于本体的个性化用户建模技术及应用[D];国防科学技术大学;2002年
3 王勇;基于模糊聚类的Web使用模式挖掘研究[D];重庆大学;2004年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
6 黄黎;基于形式概念分析的搜索结果聚类研究[D];华中科技大学;2005年
7 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
8 刘里;中文文本分类中特征描述及分类器构造方法研究[D];重庆大学;2006年
9 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
10 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年
【二级引证文献】
中国期刊全文数据库 前2条
1 桑书娟;周晏;;一种基于词长的TFIDF特征项权值计算方法[J];电脑知识与技术;2011年32期
2 张维刚;徐永东;雷小强;何辉;;Web全文检索中间件的设计与应用[J];计算机应用;2011年08期
中国重要会议论文全文数据库 前2条
1 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 苏俊杰;胡欣杰;;基于人工免疫算法的搜索引擎结果聚类技术研究[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
中国博士学位论文全文数据库 前1条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘菁菁;基于结构和主题的Web信息检索研究[D];大连理工大学;2007年
2 王琼;元搜索引擎结果聚类优化的研究与实现[D];苏州大学;2008年
3 陈靖;垂直育儿搜索引擎研究[D];西南大学;2010年
4 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
5 孙珊珊;基于网页聚类的搜索引擎结果排序[D];中国石油大学;2010年
6 司津锦;高校学位论文管理系统开发与应用[D];山西师范大学;2010年
7 胡国东;基于后缀数组聚类的元搜索引擎的设计与实现[D];吉林大学;2010年
8 陈飞;聚类搜索引擎关键技术的研究[D];北京邮电大学;2011年
9 崔涛;基于检准率分析中文自动标引方式存在问题及对策[D];河北大学;2011年
10 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 滕弘飞,孙守林,葛文海,杨永辉,娄汉文;旋转舱内圆柱体及长方体群布局优化[J];大连理工大学学报;1993年03期
2 储荷婷;国际互联网检索工具:特点、比较和发展方向[J];大学图书馆学报;1997年03期
3 温庆营;World Wide Web上的检索工具[J];今日电子;1996年04期
4 来翔,鲁东明;基于OpenInventor技术的虚拟展示商务系统设计及实现[J];计算机工程与应用;2003年35期
5 戴佐,查建中;三维实体布局的八叉树语言及优化算法[J];计算机辅助设计与图形学学报;1996年01期
6 王春景,陈晰;Open Inventor与Visual C++在图形图像中的集成使用[J];计算机时代;2002年11期
7 滕弘飞,刘义军,葛文海,孙大新,钟万勰;旋转锥体空间中圆柱体群的布局优化[J];计算机学报;1993年07期
8 韩潮,曲艺;Open Inventor在STK模型转换中的应用[J];计算机仿真;2005年10期
9 倪俊芳;三维视景虚拟产品设计集成系统[J];机械设计;2005年06期
10 毛剑飞,徐益,颜文俊,诸静;三维图形仿真在机器人控制系统中的运用[J];计算机应用与软件;2003年12期
【相似文献】
中国期刊全文数据库 前10条
1 杨望;;Web Spam技术的发展与防御[J];中国教育网络;2011年07期
2 戴菲;;数据挖掘技术在电子商务中的应用[J];电脑知识与技术;2011年21期
3 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
4 ;李彦宏论搜索引擎三个定律[J];新电子;2001年02期
5 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期
6 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期
7 李恒训;李南波;邱泳钦;徐燕;刘金刚;;基于结构驱动的网络论坛采集路径研究[J];计算机应用研究;2011年09期
8 魏蕾如;;基于搜索引擎的网络中文信息检索工具评价[J];数字技术与应用;2011年06期
9 马玥;;王小川:绝境之外[J];中国经济和信息化;2011年12期
10 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期
中国重要会议论文全文数据库 前10条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘建华;;一个智能搜索引擎的用户行为聚类分析[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 赵庆亮;穗志方;;一种基于WWW的Ontology属性值自动提取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 吴京慧;余珊珊;王明文;;基于用户日志聚类的查询扩展模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
7 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
8 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
9 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
中国重要报纸全文数据库 前10条
1 记者 刘瑜;如何把流失的读者拉回图书馆?[N];深圳商报;2009年
2 闫辉;搜索引擎猜想[N];计算机世界;2005年
3 杨国强;搜索引擎的前世今生[N];第一财经日报;2009年
4 邢小萍;国际万维网大会首次在中国举办[N];网络世界;2008年
5 郜婕;万维网20岁庆生,创始人很烦广告[N];新华每日电讯;2009年
6 方兴东;《编织万维网》:万维网之父谈万维网[N];计算机世界;2003年
7 本报记者 许金晶;政府力挺新搜索引擎Accoona国内厂商谨慎欢迎[N];第一财经日报;2004年
8 主持人 陈建栋;搜索引擎能帮企业做什么[N];光明日报;2005年
9 本报记者 陈建栋;搜索引擎掀起第三次网络浪潮[N];光明日报;2005年
10 曾正乐;搜索引擎为啥那么热[N];经济日报;2005年
中国博士学位论文全文数据库 前10条
1 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
5 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
2 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年
3 刘洋;基于Web的内容挖掘技术研究[D];哈尔滨工程大学;2003年
4 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
5 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
6 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
7 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
8 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
9 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
10 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026