收藏本站
《湘潭大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本聚类中特征选择算法的研究

龚静  
【摘要】: 近年来,我们可以很容易地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档。于是,人们对发展能够帮助用户有效地导航、总结和组织这些文本信息技术的兴趣越来越强。快速和高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,这种技术能够提供导航/浏览机制,或者,通过聚类驱动的降维或权值调整来极大地改善检索性能。因此,文本聚类研究成为当前国际上信息处理的一个重要课题,国内中文文本聚类的研究正处于初期,还存在许多问题亟待解决。本文我们对此进行了研究,具体工作如下: 首先,我们对于现有的词语权值计算方法做了一定的改进,不仅考虑了文本中的词语概率信息,还结合文本语义等多方面信息,提出了一种基于多重因子加权的词语权值计算方法。实验证明这种方法能够很好的提高文本聚类的正确率。 然后,总结了现有特征项选择方法的不足,从而提出了一种单词贡献度(TD)的特征选择方法。试验证明,这种特征选择方法能够提高文本聚类的正确率,从而提高聚类的整体性能,达到了有效降维的目的。 其次,我们研究了文本聚类算法,k-means算法是一种简单高效的文本聚类算法,但它存在由于初始聚类中心选择不好时会陷入局部极小,得到的解是局部最优解,而不是全局最优解。为此,我们提出了一种改进的k-means算法,该算法可以提高聚类的稳定性并改善聚类结果。 最后,我们在第五章进行了一序列的比较的实验。
【学位授予单位】:湘潭大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 桑书娟;周晏;;一种基于词长的TFIDF特征项权值计算方法[J];电脑知识与技术;2011年32期
2 胡昌平;陈果;;共词分析中的词语贡献度特征选择研究[J];现代图书情报技术;2013年Z1期
中国硕士学位论文全文数据库 前3条
1 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
2 曾静静;基于Map-Reduce构建高效文本聚类系统[D];上海交通大学;2011年
3 楼华锋;面向文本聚类的语义加权研究[D];上海交通大学;2010年
【参考文献】
中国期刊全文数据库 前9条
1 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
2 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
3 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期
4 唐春生,金以慧;一种大规模的递增聚类算法及其在文档聚类中的应用[J];计算机工程与应用;2002年11期
5 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
6 姜亚莉;关泽群;;用于Web文档聚类的基于相似度的软聚类算法[J];计算机工程;2006年02期
7 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
8 卜东波,白硕,李国杰;文本聚类中权重计算的对偶性策略[J];软件学报;2002年11期
9 林鸿飞,姚天顺;基于概念的中文文本可视化表示机制[J];小型微型计算机系统;2000年10期
中国硕士学位论文全文数据库 前1条
1 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
3 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
4 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
5 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
6 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
7 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
8 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
9 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
10 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
6 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
7 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
8 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
9 江萍;;车牌分割中的阈值选择策略[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
10 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
7 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
8 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
9 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
3 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
4 苏贵洋;王永成;马颖华;;个性化浏览中网页推荐的结构模型[J];计算机科学;2003年04期
5 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
6 王永恒;贾焰;杨树强;;海量短语信息文本聚类技术研究[J];计算机工程;2007年14期
7 张玉芳;万斌候;熊忠阳;;文本分类中的特征降维方法研究[J];计算机应用研究;2012年07期
8 黄河燕,陈肇雄;基于多策略分析的复杂长句翻译处理算法[J];中文信息学报;2002年03期
9 刘斌;陈桦;;向量空间模型信息检索技术讨论[J];情报杂志;2006年07期
10 钟伟金;;共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析[J];图书情报工作;2011年06期
中国博士学位论文全文数据库 前3条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
2 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
3 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前8条
1 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
2 陈希;基于混合模式的文本过滤系统的研究[D];山东师范大学;2006年
3 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
4 杨春喜;Web文本内容过滤关键技术的分析与研究[D];暨南大学;2007年
5 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
6 王琼;元搜索引擎结果聚类优化的研究与实现[D];苏州大学;2008年
7 毋非;基于容错粗糙集的话题检测与跟踪方法研究[D];西安电子科技大学;2009年
8 曾路平;基于相似度的文本聚类算法研究及应用[D];江苏大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 白冰;基于多层向量空间的语义信息检索研究[D];重庆大学;2011年
2 陶红;基于语义相似度的群智能文本聚类方法研究[D];江苏科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
2 杨靖涛,王学林,胡于进;一种基于相似性的文档聚类算法[J];华中科技大学学报(自然科学版);2002年12期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
5 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
6 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
7 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
8 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
9 王国勇,徐建锁;TCBLSA:一种中文文本聚类新方法[J];计算机工程;2004年05期
10 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
中国硕士学位论文全文数据库 前1条
1 刘立平;一种中文文本聚类方法的研究[D];湘潭大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
2 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
3 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
4 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
5 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
6 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
7 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
8 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
9 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
10 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026