收藏本站
《中国科学院研究生院(计算技术研究所)》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

文本聚类分析效果评价及文本表示研究

周昭涛  
【摘要】: 随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。在与文本聚类分析相关的研究中,可用的算法种类众多且难以选择与比较,因此对文本的聚类结果进行有效评价非常关键。目前,评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不好,哪个更好,怎样才能更好,这些都是需要研究人员进行回答的问题。 这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、提高文本聚类分析效果这个目的,主要完成了文本聚类分析评价以及文本表示模型研究两个方面的工作,论文的具体工作内容包括: (1)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个因素:文本表示模型、距离度量方法和聚类分析算法; (2)详细介绍了两类评价标准下对应的具体评价指标,清晰界定了基于人工判定的指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人工判定的系列指标以及其特性,推荐使用熵和基于类的F值两个指标; (3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用软件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模块可各自独立使用,可扩展性强; (4)应用软件包进行实验分析。主要分析HAC算法中大类现象的出现位置、原因和启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比较分析,对主要聚类算法效果进行横向比较。主要结论包括:a)文本HAC算法的聚类效果是一个先变好后变坏的过程,算法先按照文本语义逐渐凝聚簇直至临界点,临界点后出现大类倾向,质量开始变坏。文本表示与文本语义之间的不完全对应造成了这种现象,解决方案建议在临界点之前停止簇合并避免质量变差或者淘汰干扰簇等;b)英文文本处理中的Lower处理以及不进行Stem处理可以适当提高最终聚类效果的质量;c)VSM模型中的ltc特征权重度量方法相对于nnn、Lnu、OKAPI中的BM25等方法更优;d)在本文的实验中通过适当的阈值设置,NN算法可以产生高质量的小簇,从整体效果上而言K-Means基本优于HAC、K-Means Bisecting和NN聚类算法; (5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱强;潘洁珠;郭玉堂;;一种基于粒度的聚类算法[J];合肥师范学院学报;2009年06期
2 徐森;卢志茂;顾国昌;;解决文本聚类集成问题的两个谱算法[J];自动化学报;2009年07期
3 单蓉;;文本聚类算法的比较研究[J];内江科技;2008年12期
4 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
5 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
6 时念云;蒋红芬;徐九韵;;改进遗传算法在模糊文本聚类中的应用研究[J];科学技术与工程;2005年24期
7 王义;张阳;李书琴;;基于字符串核函数的热点新闻发现系统[J];广西师范大学学报(自然科学版);2007年04期
8 徐森;卢志茂;顾国昌;;文本聚类集成问题中的谱算法[J];控制与决策;2009年08期
9 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
10 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
11 万红新;彭云;;模糊策略下的搜索文本聚类分析技术[J];计算机工程与应用;2009年33期
12 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
13 修宇;王士同;朱林;宗成庆;;极大熵球面K均值文本聚类分析[J];计算机科学与探索;2007年03期
14 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
15 杨峰,周宁,吴佳鑫;基于信息可视化技术的文本聚类方法研究[J];情报学报;2005年06期
16 庄世芳;;一种基于Ontology的中文Web文本聚类算法的研究[J];福建电脑;2008年06期
17 王胜利;王科欣;;ISOMAP在中文文本聚类分析中的应用[J];微型电脑应用;2009年08期
18 彭泽映;俞晓明;许洪波;刘春阳;;大规模短文本的不完全聚类[J];中文信息学报;2011年01期
19 任江涛;孙婧昊;施潇潇;黄焕宇;印鉴;;一种用于文本聚类的改进的K均值算法[J];计算机应用;2006年S1期
20 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
6 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
9 房海灵;李维林;于盱;梁呈元;;薄荷属植物的数量分类[A];中国植物学会植物结构与生殖生物学专业委员会、江苏省植物学会2007年学术年会学术报告及研究论文集[C];2007年
10 金友玉;;湖北省区域经济差异综合评价及分类分析[A];2007中国科协年会专题论坛暨第四届湖北科技论坛优秀论文集[C];2007年
中国重要报纸全文数据库 前10条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
2 中谷期货 杨静;期货公司客户信用风险评级体系研究[N];期货日报;2007年
3 YMG记者 孙长波;烟台经济增速全球第三[N];烟台日报;2008年
4 符信;30个指标评价社会发展水平[N];南方日报;2005年
5 雨文;全国专家聚云财大研讨区域经济学[N];云南日报;2006年
6 中国社会科学院研究生院人文学院 王昌燧 朱剑 朱铁权;原始瓷产地研究之启示[N];中国文物报;2006年
7 王式跃;对宁波区域经济发展差异的分析[N];中国信息报;2007年
8 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
9 蒋志华 杨诚 陈晓卫 从日玉 李瑞娟;中国公众统计素养调查研究[N];中国信息报;2009年
10 记者 王宝琳;我首次采用基因组学技术研究中药[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
2 曹锋;数据流聚类分析算法[D];复旦大学;2006年
3 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
4 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
5 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
6 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
7 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
8 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
9 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 张永鹏;基于核函数和自定类别数目的文本聚类问题研究[D];哈尔滨理工大学;2008年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
10 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978