收藏本站
《南昌大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

SOM算法的改进及其在中文文本聚类的应用

刘飞荣  
【摘要】:近几十年来,国外学者对英文文本聚类投入了大量研究工作,并取得了些优秀的成果。与英文文本聚类相比,中文文本聚类技术研究和应用起步较晚,文本聚类效果普遍不太理想。针对此现状,本文对中文文本聚类技术进行深入研究。重点在于改进经典SOM算法,并应用于中文文本聚类中。本文研究工作主要涵盖以下四点内容: (1)研究中文文本聚类技术,包括中文分词、停用词过滤、特征选择等中文预处理技术以及各种聚类分析算法。 (2)针对特征项维数灾难导致计算负载过大,在预处理中引入同义词合并技术,实现特征空间的语义降维,提高系统聚类速度和准确性。 (3)重点研究经典SOM算法,针对其聚类数目需预先输入、网络结构固定、初始化效果不理想以及聚类结果依赖样本输入顺序,提出一种改进的自增长SOM算法予以解决之。 (4)采用C#.net技术设计实现了基于改进的SOM算法的《中文文本聚类系统》平台。然后进行了系统测试评估,评估结果表明改进SOM算法可以改善系统聚类效果。
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
2 徐斌;张玉峰;;基于语义准则函数的中文评论性文本极性聚类算法研究[J];情报学报;2011年05期
3 焦慧;刘迁;王玉英;贾惠波;;优化初始值的K均值中文文本聚类[J];微计算机信息;2009年21期
4 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
5 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
6 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
8 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
9 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
10 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
6 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
7 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
7 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
10 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026