收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传算法的文本聚类研究

杨丽  
【摘要】:文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。针对大规模高维的文本数据,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。 文本数据的特殊性,即文本形式上的非结构化,使得文本具有高维性和稀疏性的特点。近义词和多义词问题也是文本数据特有的自然语言现象。这些问题使文本聚类具有很高的时间复杂度,并干扰了聚类算法的准确性,使得文本聚类的性能急剧下降。 首先,本文采用潜在语义索引和遗传算法相结合达到消除上述问题的目的。潜在语义索引中的奇异值分解技术将原始特征空间转化到相应较小的潜在语义空间上,这样就可以消除词语用法的多样性和词语使用的随意性。遗传算法优化特征选取,可以在无先验知识的情况下对特征向量进一步降维,从而降低聚类复杂度。 其次,在文本聚类算法的研究中,本文提出一种基于可变长染色体编码遗传算法的K-中心聚类算法。由于K-均值算法对孤立点敏感,所以本文采用基本的K-中心聚类算法。K-中心算法同样需要事先确定k值,而聚类结果对k值依赖性很大。采用可变长染色体编码的遗传算法进行聚类,使得聚类算法不会受限于初始种群的好坏。 最后,通过仿真实验证明了采用遗传算法进行降维的优越性,并且,通过对比实验分析并证明了本文所提的改进算法的有效性,得出改进算法优于其它算法的结论。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱征宇;李力沛;罗颖;周智;朱庆生;;一种应用于中文文本聚类的适应值函数[J];计算机科学;2009年05期
2 余永红;柏文阳;;基于特征项权重自动分解的文本聚类[J];计算机工程;2011年11期
3 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
4 戴文华;焦翠珍;何婷婷;;基于遗传算法的自适应文本模糊聚类研究[J];计算机科学;2008年08期
5 张云;冯博琴;麻首强;刘连梦;;蚁群-遗传融合的文本聚类算法[J];西安交通大学学报;2007年10期
6 乐兵;王明文;;基于遗传算法的动态文本聚类[J];江西师范大学学报(自然科学版);2006年03期
7 严宇平;肖菁;;基于可变染色体长度的遗传K均值聚类算法[J];计算机工程与设计;2008年14期
8 高宏宾;杨海振;张小彬;;一种改进的文本聚类方法[J];自动化技术与应用;2008年09期
9 李建锋;陈佳良;张美华;;一种基于聚类-遗传算法的文摘提取方法研究[J];计算技术与自动化;2007年03期
10 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
11 廖俊,朱世强,林建亚,任德祥;遗传算法在T-S模糊模型辨识中的应用[J];信息与控制;1997年02期
12 刘健庄,谢维信,高新波;一种图象中基元检测的新方法[J];电子与信息学报;1997年02期
13 金耀初;蒋静坪;;基于遗传算法的模糊控制器分析[J];模式识别与人工智能;1997年01期
14 曹先彬;庄镇泉;;一种基于遗传算法的模糊规则生成方法[J];模式识别与人工智能;1997年02期
15 夏文,王华芝;遗传算法在多波束赋形天线优化中的研究[J];北京邮电大学学报;1998年04期
16 龙甫荟,郑南宁,张晓缋;基于多层感知遗传算法的图象分割新方法[J];控制理论与应用;1998年02期
17 刘莹,王宝树,马建峰,杨耆董;模糊聚合及遗传算法在多传感器数据融合中的应用[J];电子科技;1998年01期
18 黄海贇,戚飞虎;一种精确标定摄像机的遗传算法方案(英文)[J];红外与毫米波学报;2000年01期
19 徐小力,许宝杰,殷健;采用遗传算法的旋转机组状态趋势预测之探讨[J];机械科学与技术;2000年05期
20 陈勇,邓先灿;基于遗传算法的微波电路优化方法[J];微波学报;2000年S1期
中国重要会议论文全文数据库 前10条
1 周海清;王恭先;陈正汉;;基于面向对象遗传算法的抗滑桩优化设计程序的研制[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
2 吴建生;金龙;;基于实数编码的遗传算法神经网络预报建模研究[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 申元霞;张翠芳;;GA-BP算法在系统辨识中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
5 曹春红;李文辉;张永坚;;遗传蚂蚁算法在几何约束求解中的应用[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
7 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
8 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
10 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国博士学位论文全文数据库 前10条
1 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年
2 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
3 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
4 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
5 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
6 曹宇;利用遗传算法对声障板优化设计的研究[D];哈尔滨工程大学;2010年
7 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
8 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
9 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
10 崔晓芳;箱型结构焊接变形预测、控制及应用[D];大连交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨丽;基于遗传算法的文本聚类研究[D];南京航空航天大学;2009年
2 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
3 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
4 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
5 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
6 宋品;基于改进遗传算法的波束形成技术研究及其应用[D];西安电子科技大学;2010年
7 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
8 高建兵;基于遗传算法的模糊推理控制系统的参数优化研究[D];辽宁工程技术大学;2011年
9 李振业;多向变异遗传算法及其优化神经网络的研究[D];华南理工大学;2011年
10 栾丽霞;遗传算法在潍坊商校排课系统的研究与应用[D];电子科技大学;2011年
中国重要报纸全文数据库 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
3 中国科技大学计算机系 邢方亮;计算智能百花齐放[N];计算机世界;2003年
4 包家庆;IDS五大发展趋势[N];网络世界;2002年
5 郭明波;来自蝙蝠的启发[N];北京科技报;2001年
6 易水;IT新词集锦[N];计算机世界;2003年
7 李磊;让电子政务更聪明[N];计算机世界;2001年
8 高澜庆;矿山企盼智能化[N];中国矿业报;2000年
9 顾正华 唐洪武 肖洋 河海大学水利水电工程学院 李云 南京水利科学研究院水工研究所;水流智能模拟大步走来[N];中国水利报;2005年
10 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978