收藏本站
《北京邮电大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于k-means的自适应聚类算法研究

刘磊  
【摘要】: 随着信息技术的迅速发展,网络信息爆炸对有用信息的高效获取和管理提出了挑战。传统的信息检索,需要用户有明确的需求。但是这在很多情况下很难做到,因此如何在没有明确查询需求的情况下,从网络文本中获取有用信息便成为一项非常有意义的研究课题。文本挖掘是一种可以有效的从非结构化文本信息中提取出有用信息的过程。聚类作为文本挖掘的重要技术,它可以发现有用的数据分布和隐含的数据模式,用它可以不依赖背景知识直接发现有用的结构和簇。 基于这样的背景和前提,本文首先回顾了聚类算法的国内外研究现状,重点介绍了聚类过程中的相关技术、以数学形式表示和讨论了聚类过程中相似度度量、测度距离等基本概念,为后续章节的研究提供了理论和实验基础。同时分析了五种常用的聚类方法,并对各种算法的性能做了分析与比较。在分析现有主要聚类算法优缺点的基础上,提出了一种自适应聚类算法,该算法通过寻找自定义判别函数的最优解,能够自动确定聚类结果的类别数目,避免了在聚类数目选取上存在的主观性和盲目性,在一定程度上弥补了原有算法的不足,并通过实验验证了该算法的有效性。 在此基础上,本文阐述了一种基于自适应聚类算法的新主题发现系统。该系统能够自动发现文本数据流中的潜在主题,并按照每个类别文本的主题内容给出类别表征词。实验测试结果表明,采用自适应聚类算法的新主题发现系统能够有效的发现潜在文本主题,再一次证实了算法的有效性。 最后,对论文的工作进行了回顾和总结,并就有待进一步研究和探索的问题进行了讨论和展望。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP301.6

【引证文献】
中国硕士学位论文全文数据库 前5条
1 王桂亮;基于凸壳的半监督聚类算法研究[D];中国海洋大学;2011年
2 张琰;基于粗糙集与遗传算法的聚类算法[D];陕西师范大学;2010年
3 王颖;基于遗传算法的数据挖掘技术的应用研究[D];浙江理工大学;2012年
4 谭静;基于半监督聚类的图像分割算法研究[D];中国海洋大学;2012年
5 刘振鹿;基于LDA的潜在语义空间分析及Web文档聚类的研究与实现[D];东北大学;2010年
【参考文献】
中国期刊全文数据库 前3条
1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
【共引文献】
中国期刊全文数据库 前10条
1 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
2 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
5 王新军;卿华;姚娇艳;;流水线加工调度问题的神经网络算法[J];兵工自动化;2011年10期
6 胡胜海;徐鹏;何蕾;杨奇;富威;;基于支持向量机的舰炮自动弹库方案决策研究[J];兵工学报;2011年11期
7 陶兰;;Kohonen神经网络模型在柑桔区域规划专家系统中的应用[J];北京农业工程大学学报;1993年01期
8 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
9 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
10 杜大鹏;穆志纯;陈静;方新;;一种用于模拟汉字认知过程的多层自组织神经网络[J];北京科技大学学报;2007年01期
中国重要会议论文全文数据库 前10条
1 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
6 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
7 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
8 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
9 ;A hybrid of fuzzy-link clustering and classification for seismic data[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
3 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
4 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
5 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
9 吕琳;天然气水合物(地球物理属性)的神经网络识别方法及软件开发[D];吉林大学;2011年
10 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
4 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
5 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
6 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
7 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
8 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
9 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
10 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 金文华,何涛,唐卫清,唐荣锡;简单快速的平面散乱点集凸包算法[J];北京航空航天大学学报;1999年01期
2 周培德,周忠平,张欢;寻求中国货郎担问题最短回路的多项式时间算法[J];北京理工大学学报;2000年02期
3 黄聪明,陈湘秀;小生境遗传算法的改进[J];北京理工大学学报;2004年08期
4 周培德;求解货郎担问题的几何算法[J];北京理工大学学报;1995年01期
5 毋河海;凸壳原理在点群目标综合中的应用[J];测绘工程;1997年01期
6 彭认灿,王家耀,田震,郭立新,陈子澎;基于凸壳构造技术的领海基点选取问题研究[J];测绘学报;2005年01期
7 程效军,孙晋岳;基于凸壳的TIN建立技术[J];东北测绘;2001年01期
8 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
9 周培德;寻求平面上线段集凸壳的算法[J];工程图学学报;2003年02期
10 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
中国博士学位论文全文数据库 前3条
1 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
2 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
3 马佳;改进免疫遗传算法及其在优化调度问题中的应用研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
2 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
3 王桂亮;基于凸壳的半监督聚类算法研究[D];中国海洋大学;2011年
4 余小双;遗传算法及其在数据挖掘中的应用研究[D];武汉纺织大学;2010年
5 陈文臣;Web日志挖掘技术的研究与应用[D];中国科学院研究生院(计算技术研究所);2005年
6 蒋联源;凸壳算法及其应用研究[D];广西师范大学;2007年
7 冯超;K-means聚类算法的研究[D];大连理工大学;2007年
8 吴晓蓉;K-均值聚类算法初始中心选取相关问题的研究[D];湖南大学;2008年
9 刘宇;基于遗传算法的模糊聚类研究及其应用[D];河南大学;2008年
10 郑媛媛;凸壳理论在支持向量分类机中的应用[D];东北电力大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 谭静;基于半监督聚类的图像分割算法研究[D];中国海洋大学;2012年
【二级参考文献】
中国期刊全文数据库 前5条
1 李洁,高新波,焦李成;一种基于CSA的混和属性特征大数据集聚类算法[J];电子学报;2004年03期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
4 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
5 何清;模糊聚类分析理论与应用研究进展[J];模糊系统与数学;1998年02期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
2 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
3 陈思睿;张永;杨志勇;;基于粗糙集的特征选择方法的研究[J];计算机工程与应用;2006年21期
4 王浩;王行愚;牛玉刚;;一种基于LS拟合判别函数的SVR特征选择算法[J];计算机科学;2006年02期
5 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
6 严华云;肖良军;;EM算法在文本挖掘中的应用[J];湖州职业技术学院学报;2008年03期
7 梁丹凝;周书民;;基于文本挖掘的民声通道短信分类研究[J];江西科学;2010年02期
8 许高建;路遥;胡学钢;涂立静;;一种改进的文本特征选择方法的研究与设计[J];苏州大学学报(工科版);2008年02期
9 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
10 田俊峰;黄红艳;常新峰;;特征选择的轻量级入侵检测系统[J];计算机工程与应用;2009年04期
中国重要会议论文全文数据库 前10条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 周同民;;Fisher线性判别在儿童情绪识别中的应用[A];2006’和谐开发中国西部声学学术交流会论文集[C];2006年
3 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
4 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
5 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
6 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
9 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 周晓娟;TD已过分水岭[N];通信产业报;2008年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
8 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
9 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
10 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
2 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
3 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
4 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
5 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
6 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
7 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
8 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
9 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
10 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘磊;基于k-means的自适应聚类算法研究[D];北京邮电大学;2009年
2 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
3 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
4 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
5 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
6 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
7 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
8 杨打生;特征选择的信息论算法研究[D];东南大学;2005年
9 李永波;基于数据挖掘的军事情报分析系统研究[D];重庆大学;2005年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026