收藏本站
《西华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Ontology的Web文本聚类研究

赵颖  
【摘要】:随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。因此对文本信息的挖掘是从互联网上获取知识的重要途径。 聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo [3],Infonetware RealTerm Search[4]都是非常成功的商业聚类搜索引擎。 搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组有标签标识的聚簇。搜索结果聚类涉及到文本挖掘领域的多个方面,搜索结果文本的表示模型、短语相似度计算方法、搜索结果聚类算法的选择等。如何挖掘搜索结果中的关联信息,如何在语义层面上提取聚簇标签,这些都是搜索结果聚类技术的研究重点。 本文提出了一种针对中文网页搜索结果进行聚类的改进方法。与传统的聚类技术着重于文本相似度计算和聚簇结构不同,搜索结果聚类将聚类标签的提取放在技术研究中最重要的位置。聚类标签的语义完整性、可读性、对聚簇的概括性是评价搜索结果聚类标签质量的重要指标。一个好的聚簇标签不仅可以有效的区分聚簇间的相互关系和彼此间的层次性,直观的表达各聚簇的主题,而且能够引导用户快速定位需要的信息和资源。本文通过本体的辅助改善聚类标签质量,对搜索结果的聚簇标签进行概念层次的提取,有效提高了聚类标签的可读性和概括性。 本文的主要贡献如下: (1)提出一种用来识别含有较完整语义信息短语的方法,这种方法通过比较后缀树文本模型中基类属性和包含这些基类的文档重合数量来识别完整语义信息短语。 (2)为了更好的反映短语间的关联度,本文采用了基于句子粒度的短语贡献度计算方法。 (3)提出基类贡献度的概念,通过基类包含的词语个数、词语的词性等属性为基类分配合适的权重,从而判断一个基类是否有资格进入形成聚簇标签的候选基类集合。 (4)通过本体层次化概念关系的应用,将可能成为聚簇标签的候选基类和本体中的概念进行匹配,并通过本体中概念之间的上下位等关系,为聚簇提取概括性更强、语义更丰富的概念作为标签,实现概念层次的标签提取,将聚簇的标签从一般的文本表示提升至语义表达的高度。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前1条
1 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国硕士学位论文全文数据库 前3条
1 毛平;基于领域本体的文本信息语义检索研究[D];南京理工大学;2007年
2 王竞;基于形式概念分析的Web搜索结果聚类方法的研究[D];西华大学;2008年
3 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
【共引文献】
中国期刊全文数据库 前5条
1 刘华;;网页信息抽取及建库系统C#实现[J];计算机工程;2006年16期
2 徐沛娟;惠玥;李艾瑛;孙国荣;;数据挖掘技术在话务网数据分析中的研究与应用[J];辽宁师范大学学报(自然科学版);2006年04期
3 郭莉,张吉,谭建龙;基于后缀树模型的文本实时分类系统的研究和实现[J];中文信息学报;2005年05期
4 孙宜贵;李周芳;职为梅;刘孟旭;;数据挖掘分类器性能度量相关问题的研究[J];山西电子技术;2006年05期
5 刘华;;超大规模分类语料库构建[J];现代图书情报技术;2006年01期
中国重要会议论文全文数据库 前10条
1 YANG Jian-wu National Key Laboratory for Text Processing, Institute of Computer Science and Technology, Peking University, Beijing 100871, China;A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
2 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
4 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
5 郭莉;刘燕兵;谭建龙;;基于存储压缩的多模式串匹配算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 YANG Jian-wu National Key Laboratory for Text Processing. Institute of Computer Science and Technology, Peking University. Beijing 100871, China;A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
中国博士学位论文全文数据库 前10条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 赵基;基于数据挖掘的银行客户分析管理关键技术研究[D];浙江大学;2005年
3 刘洁;对等网络环境下基于语义的异构数据管理模型[D];中国科学院研究生院(计算技术研究所);2005年
4 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
5 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
6 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
8 潘冠宇;基于粗糙集和群体智能的数据挖掘方法研究[D];吉林大学;2007年
9 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
10 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
2 孙力;生物信息学中多序列比对算法的研究[D];黑龙江大学;2005年
3 李遂;通用电视节目管理平台[D];湖南大学;2005年
4 胡蓉;一种基于相关反馈和用户建模的网络搜索个性化服务[D];湘潭大学;2005年
5 郭琛;数字图书馆的中文网页文本分类器研究[D];武汉理工大学;2005年
6 刘燕;SVM在个人房贷信用风险评估中的应用研究[D];大连理工大学;2006年
7 姚永祥;基于XTM的政务知识导航系统的研究与实现[D];大连理工大学;2006年
8 孙国荣;数据挖掘技术在话务网数据分析中的研究与应用[D];吉林大学;2006年
9 王志浩;数据挖掘在招生信息处理系统中的应用研究[D];山东师范大学;2006年
10 刘务华;文本聚类及其在Web社区搜索中的应用[D];中国科学院研究生院(计算技术研究所);2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 王顺久,张欣莉,丁晶,侯玉;投影寻踪聚类模型及其应用[J];长江科学院院报;2002年06期
3 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报(自然科学版);2002年05期
4 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
5 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术;2006年14期
6 吴佑寿,丁晓青;树分类器性能分析[J];电子学报;1991年04期
7 黄萱菁,吴立德,郭以昆,刘秉伟;现代汉语熵的计算及语言模型中稀疏事件的概率估计[J];电子学报;2000年08期
8 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
9 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
10 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
中国博士学位论文全文数据库 前4条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
3 张磊;个性化信息分发及概念检索的研究[D];中国科学院研究生院(计算技术研究所);2002年
4 朱海平;基于概念图匹配的语义搜索[D];上海交通大学;2006年
中国硕士学位论文全文数据库 前3条
1 唐俊;基于概念格的个性化信息检索研究[D];西华大学;2006年
2 秦文燕;基于语义网格的信息检索技术的研究[D];东南大学;2006年
3 王健;Web信息分类与自动摘要的研究[D];天津大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[J];东南大学学报(英文版);2006年03期
2 王刚;邱玉辉;;基于本体及相似度的文本聚类研究[J];计算机应用研究;2010年07期
3 王刚;钟国祥;;一种基于本体相似度计算的文本聚类算法研究[J];计算机科学;2010年09期
4 王栋;吴军华;;基于LSI和词典的文本语义相似度算法[J];煤炭技术;2010年12期
5 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
6 秦炜,杨少军;协作学习过程中的知识积累与共享[J];计算机集成制造系统-CIMS;2003年S1期
7 张全海,施鹏飞;基于本体的多智能体知识共享和协作[J];上海交通大学学报;2003年09期
8 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
9 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
10 吕永波;任锦鸾;张仲义;马敏书;;虚拟智力资源共享系统模型研究[J];中国软科学;2004年02期
中国重要会议论文全文数据库 前10条
1 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
2 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
3 赵泽宗;;比喻推理建构[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
4 戴佐培;宋春林;李净;;基于本体的中医经络知识库的设计与开发[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
5 伍伟;李兵;曾诚;;基于本体的语义Web服务注册平台研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
6 陈冬菊;张发军;宫玉梅;何天白;;在嵌段共聚物本体与薄膜中结晶形貌的研究[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
7 广凯;魏鲲;金浩;潘金贵;;一种基于本体的上下文模型[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
8 康达周;徐宝文;陆建江;李言辉;;支持语义web模糊本体的描述逻辑(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 蔡畅;李宏伟;李勤超;;语义层次的知识推理研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
10 王肃;杜军平;高田;;基于本体与知识背景的模式挖掘框架研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
中国重要报纸全文数据库 前10条
1 黄家艳;川电三公司汽机工程处本体班获“全国质量信得过班组”[N];西南电力报;2002年
2 刘春田;“知识”的本体和现实形态[N];中国知识产权报;2004年
3 中国科学院计算技术研究所 黄瑞史忠植;加强知识的共享与重用[N];计算机世界;2007年
4 大江;锻造本体竞争力[N];中国改革报;2006年
5 深圳报业集团驻京记者 陆云红;改革开放之窗创新活力之都[N];深圳特区报;2006年
6 任玉岭;一本体现时代精神的哲学教材[N];光明日报;2003年
7 郑敏;也谈本体杂文[N];中国文化报;2003年
8 宏图三胞高级副总裁 花贵侃;企业需要一条灵活的“尾巴”[N];电脑商报;2007年
9 左孝 记者蒋寒;世界最大本体装置在天原建成[N];科技日报;2005年
10 孙国华;法的本体是法律关系[N];检察日报;2005年
中国博士学位论文全文数据库 前10条
1 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
2 安杨;基于本体的网络地理服务中的关键问题研究[D];武汉大学;2005年
3 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
4 罗正鸿;D_4/APAEDMS本体开环共聚及其数学模拟[D];浙江大学;2003年
5 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
6 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
7 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
8 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
9 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
10 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 王曙光;基于蚁群的文本聚类算法的改进研究[D];大连理工大学;2006年
2 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
3 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
4 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
5 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
6 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
10 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026