收藏本站
《南京航空航天大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传算法的文本聚类研究

杨丽  
【摘要】:文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。针对大规模高维的文本数据,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。 文本数据的特殊性,即文本形式上的非结构化,使得文本具有高维性和稀疏性的特点。近义词和多义词问题也是文本数据特有的自然语言现象。这些问题使文本聚类具有很高的时间复杂度,并干扰了聚类算法的准确性,使得文本聚类的性能急剧下降。 首先,本文采用潜在语义索引和遗传算法相结合达到消除上述问题的目的。潜在语义索引中的奇异值分解技术将原始特征空间转化到相应较小的潜在语义空间上,这样就可以消除词语用法的多样性和词语使用的随意性。遗传算法优化特征选取,可以在无先验知识的情况下对特征向量进一步降维,从而降低聚类复杂度。 其次,在文本聚类算法的研究中,本文提出一种基于可变长染色体编码遗传算法的K-中心聚类算法。由于K-均值算法对孤立点敏感,所以本文采用基本的K-中心聚类算法。K-中心算法同样需要事先确定k值,而聚类结果对k值依赖性很大。采用可变长染色体编码的遗传算法进行聚类,使得聚类算法不会受限于初始种群的好坏。 最后,通过仿真实验证明了采用遗传算法进行降维的优越性,并且,通过对比实验分析并证明了本文所提的改进算法的有效性,得出改进算法优于其它算法的结论。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 任婷婷;面向企业竞争情报系统的近邻传播文本聚类技术研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前4条
1 姜亚莉;关泽群;;用于Web文档聚类的基于相似度的软聚类算法[J];计算机工程;2006年02期
2 梅馨,邢桂芬;文本挖掘技术综述[J];江苏大学学报(自然科学版);2003年05期
3 叶浩,王明文,曾雪强;基于潜在语义的多类文本分类模型研究[J];清华大学学报(自然科学版);2005年S1期
4 马国俊,贠卫国;基于潜在语义索引的中文文本聚类的研究[J];现代电子技术;2005年10期
中国博士学位论文全文数据库 前1条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前1条
1 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 吴大宏,赵人达;基于遗传算法与神经网络的桥梁结构健康监测系统研究初探[J];四川建筑科学研究;2002年03期
2 郑浩,王全凤;L-M算法在高层结构体系选型中的应用[J];四川建筑科学研究;2003年03期
3 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
4 邓建斌;叶洪江;;基于混沌遗传算法的配电网无功补偿优化[J];安徽电气工程职业技术学院学报;2006年03期
5 乔志杰;程翠翠;;基于遗传算法优化的模糊PID控制研究及其仿真[J];安徽电气工程职业技术学院学报;2009年03期
6 张安勤;数据挖掘与进化算法[J];安徽教育学院学报;2002年03期
7 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
8 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
9 范进;;产业结构对产业集群影响力的实证分析[J];安徽广播电视大学学报;2006年04期
10 王传旭;王建民;刘晓武;;安徽新农村建设中新型农民培养问题研究——以阜阳、滁州和马鞍山为例[J];安徽广播电视大学学报;2012年02期
中国重要会议论文全文数据库 前10条
1 齐继阳;竺长安;曾议;;基于遗传禁忌混合搜索算法的设备布局研究[A];2004“安徽制造业发展”博士科技论坛论文集[C];2004年
2 杨益;方潜生;汪力君;;基于Handel-C的数字芯片的设计方法研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 胡杨林;蒋洁琼;王明煌;曾勤;邱岳峰;邹俊;陈红丽;FDS team;;聚变裂变混合堆长寿命锕系废料嬗变处理的中子学优化分析[A];安徽新能源技术创新与产业发展博士科技论坛论文集[C];2010年
5 丁婷;崔红涛;;遗传算法在智能天线扇区波束赋形及阵元失效补偿中的应用[A];经济策论(上)[C];2011年
6 洪露;穆志纯;;一种新的克隆混沌调节算法的研究[A];第二十六届中国控制会议论文集[C];2007年
7 程远林;李茂军;;基于小生境遗传算法的配电网电容器优化配置[A];第二十六届中国控制会议论文集[C];2007年
8 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
9 孙燕;孙峥;黄鹍;;基于模拟退火机制的隔离小生境混合遗传算法[A];第二十六届中国控制会议论文集[C];2007年
10 李枚毅;游维;蔡自兴;;多样度和适应度引导的遗传算法操作概率计算研究[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张杏莉;几何约束求解关键问题研究[D];山东科技大学;2010年
2 樊建聪;分布估计学习算法研究[D];山东科技大学;2010年
3 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
4 李佳;载人潜器阻力性能的数值和试验预报及外形优化研究[D];哈尔滨工程大学;2010年
5 张亚娟;适应性企业战略协同机制研究[D];哈尔滨工程大学;2010年
6 谭枫;介入式文化算法及其应用研究[D];哈尔滨工程大学;2010年
7 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
8 戴运桃;粒子群优化算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2010年
9 曹宇;利用遗传算法对声障板优化设计的研究[D];哈尔滨工程大学;2010年
10 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘艳芳;土鸡蛋中类胡萝卜素的提取、分离鉴定及其稳定性研究[D];华中农业大学;2010年
2 熊成喜;水库移民安置区土地流转规模研究[D];华中农业大学;2010年
3 何慧娟;基于多传感器的移动机器人障碍物检测与定位研究[D];安徽工程大学;2010年
4 赫英毅;毫米波段基于TE_(21)模差网络设计[D];中国工程物理研究院;2009年
5 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
6 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
9 马水松;多目标遗传算法与非支配集的构造研究[D];山东科技大学;2010年
10 张静;协同产品开发过程规划方法研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前7条
1 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
2 王开军;李健;张军英;过立新;;聚类分析中类数估计方法的实验比较[J];计算机工程;2008年09期
3 王磊;汪西莉;刘高霞;赵琳;;一种结合半监督的改进自适应亲和传播聚类[J];计算机应用研究;2010年12期
4 卜东波,白硕,李国杰;文本聚类中权重计算的对偶性策略[J];软件学报;2002年11期
5 刘晓勇;付辉;;一种快速AP聚类算法[J];山东大学学报(工学版);2011年04期
6 张志芳;;对企业竞争情报系统构建的思考[J];山西科技;2008年03期
7 ;百度企业竞争情报系统解决方案[J];软件工程师;2003年11期
中国硕士学位论文全文数据库 前4条
1 姜博;面向企业竞争情报的数据挖掘关键技术研究与实现[D];西安电子科技大学;2010年
2 王俊俊;面向企业竞争情报的Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2010年
3 陈小芳;基于数据挖掘的企业竞争情报系统应用研究[D];合肥工业大学;2008年
4 陈昌卫;基于数据挖掘技术的企业竞争情报系统的研究[D];中南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
3 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
4 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
5 戴晓军,刘常昱,韩旭,李德毅;数据场在信息表征中的应用[J];复旦学报(自然科学版);2004年05期
6 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
7 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
8 杨靖涛,王学林,胡于进;一种基于相似性的文档聚类算法[J];华中科技大学学报(自然科学版);2002年12期
9 程莉,卢正鼎,文坤梅,李娟;基于语义的模糊匹配探索与应用[J];华中科技大学学报(自然科学版);2003年02期
10 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 朱征宇;李力沛;罗颖;周智;朱庆生;;一种应用于中文文本聚类的适应值函数[J];计算机科学;2009年05期
2 余永红;柏文阳;;基于特征项权重自动分解的文本聚类[J];计算机工程;2011年11期
3 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
4 戴文华;焦翠珍;何婷婷;;基于遗传算法的自适应文本模糊聚类研究[J];计算机科学;2008年08期
5 张云;冯博琴;麻首强;刘连梦;;蚁群-遗传融合的文本聚类算法[J];西安交通大学学报;2007年10期
6 乐兵;王明文;;基于遗传算法的动态文本聚类[J];江西师范大学学报(自然科学版);2006年03期
7 严宇平;肖菁;;基于可变染色体长度的遗传K均值聚类算法[J];计算机工程与设计;2008年14期
8 高宏宾;杨海振;张小彬;;一种改进的文本聚类方法[J];自动化技术与应用;2008年09期
9 李建锋;陈佳良;张美华;;一种基于聚类-遗传算法的文摘提取方法研究[J];计算技术与自动化;2007年03期
10 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
中国重要会议论文全文数据库 前10条
1 周海清;王恭先;陈正汉;;基于面向对象遗传算法的抗滑桩优化设计程序的研制[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
2 吴建生;金龙;;基于实数编码的遗传算法神经网络预报建模研究[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 申元霞;张翠芳;;GA-BP算法在系统辨识中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
5 曹春红;李文辉;张永坚;;遗传蚂蚁算法在几何约束求解中的应用[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
7 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
8 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
10 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
3 中国科技大学计算机系 邢方亮;计算智能百花齐放[N];计算机世界;2003年
4 包家庆;IDS五大发展趋势[N];网络世界;2002年
5 郭明波;来自蝙蝠的启发[N];北京科技报;2001年
6 易水;IT新词集锦[N];计算机世界;2003年
7 李磊;让电子政务更聪明[N];计算机世界;2001年
8 高澜庆;矿山企盼智能化[N];中国矿业报;2000年
9 顾正华 唐洪武 肖洋 河海大学水利水电工程学院 李云 南京水利科学研究院水工研究所;水流智能模拟大步走来[N];中国水利报;2005年
10 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年
2 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
3 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
4 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
5 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
6 曹宇;利用遗传算法对声障板优化设计的研究[D];哈尔滨工程大学;2010年
7 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
8 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
9 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
10 崔晓芳;箱型结构焊接变形预测、控制及应用[D];大连交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨丽;基于遗传算法的文本聚类研究[D];南京航空航天大学;2009年
2 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
3 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
4 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
5 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
6 宋品;基于改进遗传算法的波束形成技术研究及其应用[D];西安电子科技大学;2010年
7 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
8 高建兵;基于遗传算法的模糊推理控制系统的参数优化研究[D];辽宁工程技术大学;2011年
9 李振业;多向变异遗传算法及其优化神经网络的研究[D];华南理工大学;2011年
10 栾丽霞;遗传算法在潍坊商校排课系统的研究与应用[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026