收藏本站
《燕山大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于群体智能的文本聚类技术研究

马玉静  
【摘要】: 伴随着Internet的普及和发展,网络上的资源越来越丰富,以电子形式存在的文本成为人们获取信息的主要来源,面对海量的信息资源,需要对其进行有效的组织和管理,以利于主题发现和信息检索。文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的分类方法,根据文本自身的特点自动分成若干类,使得同类文本的相似性尽可能大、不同类文本的相似性尽可能小。特征选择和聚类算法是文本聚类技术的重要组成部分,本文针对这两部分展开研究。 首先,针对聚类缺乏类别的信息,无监督的特征选择方法很难选择出具有区分力特征词的问题,提出了一种集成的文本聚类无监督特征选择方法,将在文本分类领域成功运用的有监督特征选择方法应用于文本聚类领域。该方法首先利用K-Means聚类算法在选择不同K值得到不同聚类结果的基础上获得类别的信息,再利用有监督的特征选择CHIR统计方法选择出最优的特征子集。 其次,针对蚁群文本聚类算法中蚂蚁移动的随机性导致散点过多、算法收敛速度较慢等问题,提出了一种基于信息素的蚁群快速文本聚类算法。该算法利用信息素控制蚂蚁随机移动的策略,使蚂蚁始终朝着信息素浓度较高的方向移动,即蚂蚁经过次数较多、文本向量相对集中的区域,缩短了蚂蚁寻找文本向量簇的时间,加快了算法的收敛速度,提高了聚类结果的准确性。 最后,利用VC++开发工具实现一个基于信息素的蚁群文本聚类算法的实验平台,通过实验对文本聚类技术研究成果进行了验证,并对聚类结果性能进行了分析,为进一步的研究提供方向。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
2 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
3 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
4 吴斌,郑毅,傅伟鹏,史忠植;一种基于群体智能的客户行为分析算法[J];计算机学报;2003年08期
5 彭京;杨冬青;唐世渭;付艳;蒋汉奎;;一种基于语义内积空间模型的文本聚类算法[J];计算机学报;2007年08期
6 崔自峰;徐宝文;张卫丰;徐峻岭;;一种近似Markov Blanket最优特征选择算法[J];计算机学报;2007年12期
7 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
8 李金磊;朱晓莲;朱海燕;;一种基于投票策略的聚类融合算法[J];计算机仿真;2008年03期
9 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
10 林春实,方燕,全吉成;汉语文献自动分词与标引技术发展浅析[J];情报学报;1997年S1期
【共引文献】
中国期刊全文数据库 前10条
1 唐琨皓;杨贯中;刘燕玲;;基于本体的任务模型研究与应用[J];办公自动化;2009年02期
2 陈云飞,刘玉树,钱越英,赵基海;一种基于密度的启发性群体智能聚类算法[J];北京理工大学学报;2005年01期
3 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
4 梁晔;周海燕;;本体论与语义Web[J];北京联合大学学报(自然科学版);2007年01期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 牟冬梅;王丽伟;;知识组织系统中关系模式的应用比较[J];图书与情报;2006年05期
7 覃张华;王景中;;基于HNC理论的短文本语境框架提取实现[J];北京工商大学学报(自然科学版);2007年05期
8 祝小诗;;情报学与计算机科学在同一信息技术领域的研究比较[J];重庆图情研究;2007年02期
9 李小平;任恩恩;;异构数据库相似语义属性聚类过程研究[J];铁道科学与工程学报;2012年02期
10 李春梅;吴云峰;;基于Ontology的语义信息检索及应用[J];楚雄师范学院学报;2006年09期
中国重要会议论文全文数据库 前10条
1 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
2 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
4 王静帆;夏云庆;郑方;邬晓钧;;二阶段招聘信息检索方法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
5 姚文琳;王莉;王璀民;;基于Ontology的知识检索系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 叶晓曦;;多态蚁群聚类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 胡佳妮;郭军;徐蔚然;;一种基于短文本的独立语义特征抽取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
3 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
4 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
5 王强;空间信息服务聚合的关键技术研究[D];解放军信息工程大学;2010年
6 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
7 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
8 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
9 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年
10 萧毅鸿;基于本体的复杂决策任务表示方法与求解技术研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
4 林楠;文本特征选择算法研究[D];辽宁师范大学;2010年
5 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
10 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
2 张素兵,吕国英,刘泽民,周正;基于蚂蚁算法的QoS路由调度方法[J];电路与系统学报;2000年01期
3 陈刚,金芝,陆汝钤;虚拟企业及其协作模型[J];电子学报;2002年S1期
4 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
5 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
6 吴庆洪,张纪会,徐心和;具有变异特征的蚁群算法[J];计算机研究与发展;1999年10期
7 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
8 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
9 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【相似文献】
中国期刊全文数据库 前10条
1 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
2 辛颖梅;孙志挥;;一种文本无监督特征选择方法[J];软件导刊;2009年09期
3 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
4 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
5 胡静;蒋外文;朱华;;Web文本挖掘中数据预处理技术研究[J];现代计算机(专业版);2009年03期
6 金春霞;周海岩;;位置加权文本聚类算法[J];计算机工程与科学;2011年06期
7 严莉莉;张燕平;;基于类信息的文本聚类中特征选择算法[J];计算机工程与应用;2007年12期
8 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
9 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
10 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
中国重要会议论文全文数据库 前10条
1 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
8 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
10 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
5 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
6 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
7 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
8 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
9 张小明;如何选择供应链[N];现代物流报;2005年
10 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
3 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
4 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
5 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
9 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
2 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
3 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
4 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
5 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
6 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
7 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
8 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
9 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
10 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026