收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于边界距离的文本聚类方法研究

王智超  
【摘要】: 文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。论文介绍了目前国内外文本聚类技术的研究现状,阐述了几种具有代表性的文本聚类方法,分析了它们的理论基础和算法特点。 层次聚类算法是一类重要的聚类算法,簇间距离计算是层次聚类算法的关键,论文研究了层次聚类算法在簇间距离计算上的特点,发现现有的层次聚类算法在计算簇间距离时没有考虑类的形状和大小等信息,提出了一种新的基于边界距离的层次聚类算法,通过选择两个簇间K个边缘样本点的距离作为簇间距离,有效地利用簇的边界信息,提高簇间距离计算的准确性。不同文本集合上的实验表明,基于边界距离的聚类算法明显提高了文本聚类的性能。 目前的特征选择算法多数是以词作为聚类特征,从本质上看只是一种词形匹配技术,忽略了词语的语言学特征和相互关系。论文将语义分析引入到文本聚类的任务中,提出一种基于知网的特征抽取方法。该方法从全文的角度解决词语的一词多义的现象,将词义排歧转化为对知网相关概念场中的词在全文中频率的计算,而后根据义原的描述能力将文本中的词映射为知网中的概念,在语义相关的文本之间建立联系,降低了特征空间的维数。词的频度和语义特征相结合后,提高了文本聚类的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李黎;阮留照;;一种合理的数字水印相似度评价公式[J];杭州电子科技大学学报;2011年03期
2 郝剑;高茂庭;;基于模糊相似度的RPCL文本聚类算法[J];电脑知识与技术;2011年18期
3 郑高;肖建;蒋强;张勇;;区间二型模糊相似度与包含度[J];控制与决策;2011年06期
4 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
5 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
6 沈君;苗俊红;;一种改进的加权模糊推理方法[J];海南师范大学学报(自然科学版);2011年02期
7 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期
8 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期
9 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
10 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
11 李广原;杨炳儒;刘永彬;刘英华;;多维序列模式挖掘算法[J];计算机工程与设计;2011年07期
12 安见才让;王玲玲;;一种汉藏双语句子对齐算法[J];微处理机;2011年03期
13 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
14 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
15 牛强;夏士雄;胡祖辉;;基于二分图的故障规则匹配优化算法[J];控制与决策;2011年08期
16 邵丹;王健;;一种构建电子商务信任网的交易模式[J];南京大学学报(自然科学版);2011年04期
17 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
18 曾劲涛;罗文浪;李金忠;曾小荟;;基于历史信息选择软件可靠性模型的方法[J];井冈山大学学报(自然科学版);2011年03期
19 魏晶晶;杨定达;廖祥文;;基于网页内容相似度改进算法的主题网络爬虫[J];计算机与现代化;2011年09期
20 刘海峰;姚泽清;刘守生;;一种基于模糊加权的改进文本聚类方法[J];微电子学与计算机;2011年09期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 李娆娆;雷沛霖;黄兰岚;原思通;刘营;;芫花药材高效液相指纹图谱研究[A];中华中医药学会四大怀药与地道药材研究论坛暨中药炮制分会第二届第五次学术会与第三届会员代表大会论文集[C];2007年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张虎;郭玉翠;宫尚宝;;移动Ad-hoc网络中基于第三方观察机制的信任管理研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
5 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
6 汤丽华;赵吴静;金菊良;张明;;基于熵的水质综合评价的相似插值模型[A];第八届中国管理科学学术年会论文集[C];2006年
7 王娟;;一种基于粗糙集理论的操作风险判别方法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
8 刘晓林;郁滨;;基于相似度的遗传算法模式理论研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
9 金保华;高湘飞;柳雪环;张磊;;基于XML框架与CBR智能预案管理的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 王超;许方;;一种基于奇异值分解的印刷体数字识别算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
5 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年
6 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
9 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
10 游扬声;一般分布模式下GIS位置数据的不确定性研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
3 简艳;基于潜在语义的中文文本聚类及其应用[D];东北大学;2008年
4 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
5 梁维铿;基于Hadoop的分布式文本聚类研究[D];华南理工大学;2011年
6 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
7 于丽丽;基于DK-Means算法的文本聚类的研究与实现[D];东北大学;2008年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
10 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
4 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
5 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
6 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
7 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
8 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
9 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 天相投顾 王聃聃;投资同质化 基金繁荣背后的痛[N];证券时报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978