收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于新闻评论数据的K-means聚类算法的研究

张立  
【摘要】: 互联网在经济社会生活中发挥着日益重要的影响,成为公众表达民意、参与经济政治及社会生活的一种新的舆论平台。个人网站、论坛、博客、评论区的出现,使信息传播更加便利快捷,个人观点的表达也更加充分。中国社会科学院社会蓝皮书2010年中国社会形势分析与预测指出,网络媒体正成为舆论新格局的重要组成部分,网络上热点新闻观点的表达集中不仅反映了公众对社会重大公共事件的参与,而且反映了公众所表现出的各种价值判断和思想动态,所形成的影响不可低估,政府应该形成对网络民意的监测、反馈和吸纳机制。因此网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。 电子政府融合了现代政府管理理念与最新的信息技术,通过智能化的信息处理,采用人工智能、数据挖掘、管理决策等技术来实现辅助决策系统,对于提高效率、提高政府回应与决策能力、提高决策的科学性和准确性,实现开放型、服务型、责任型政府具有重要意义。 文本聚类技术中常采用的K-means聚类算法在实践中获得了广泛的应用,它具有高效的计算性能,具有清晰的、全局的目标函数,聚类过程简单、高效、鲁棒,适用于许多类型的数据。然而不同的应用需求、不同类型的数据对K-means算法提出了不同的要求。 如何从大型门户网上热点新闻评论信息中提取出可供决策参考的结果是需要研究的问题,能够自动对评论信息进行聚类分析是解决这个问题的关键。本文选择K-means聚类算法,采用文本聚类技术,围绕评论信息的聚类问题做了一些探索性的工作,期望能够从这些评论信息中得出有价值的观点结果,有效提供给政府相关部门,用于在公共决策中吸纳、监测民意和辅助决策参考。 在新闻评论聚类实现过程中,采用向量空间模型的文本表示方法,将最初的评论数据经过中文分词、特征提取、权重计算等处理,把评论文本数据转化成可进行聚类运算的向量,再进行聚类分析。并针对新闻评论数据的特点和K-means算法的主要缺点和不足,构建了新闻评论专用停用词表,对聚类算法实现中的关键环节特征项提取、初始聚类中心的选择和划分类别方法进行了改进,并对聚类结果和影响聚类结果的因素进行了分析说明。最终的聚类结果和F1值度量评价指标验证了本文研究内容的有效性。 最后,把新闻评论聚类的研究技术应用到新闻评论推荐系统中,实现了系统中的新闻及评论的抓取和新闻评论聚类功能,得到了良好的聚类观点集,为后继的评论信息的推荐提供了更有价值和意义的评论观点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 彭厚文;杨爽;何凤成;;基于聚类算法的并行化研究[J];电脑知识与技术;2009年24期
2 王守强;朱大铭;史士英;;基于最小聚类划分的K-means聚类(1+ε)近似算法[J];计算机研究与发展;2008年S1期
3 陈斌;;数据仓库技术在现代化支付系统数据分析中的应用[J];微型电脑应用;2007年06期
4 张效娟;;k-means算法的改进和在保险业CRM中的应用[J];大连交通大学学报;2008年01期
5 陈兴;;K-means算法在图书流通系统中的应用[J];计算机时代;2008年11期
6 菅小艳;;基于特征词的农作物文本的句子聚类[J];太原师范学院学报(自然科学版);2008年01期
7 石云平;;聚类K-means算法的应用研究[J];国外电子测量技术;2009年08期
8 顾洪博;赵万平;;数据挖掘算法性能优化的研究与应用[J];长春理工大学学报(自然科学版);2010年01期
9 薄文彦;付文兰;张凤英;;聚类算法的改进的研究[J];网络安全技术与应用;2011年06期
10 冯晓蒲;张铁峰;;四种聚类方法之比较[J];微型机与应用;2010年16期
11 赵大伟;肖周芳;;一种改进的基于密度和样本数量的K-means算法[J];科技信息;2008年28期
12 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
13 周慧芳;;自适应的k-means聚类算法SA-K-means[J];科技创新导报;2009年34期
14 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
15 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
16 李卫平;;对k-means聚类算法的改进研究[J];中国西部科技;2010年24期
17 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期
18 易珺;路璐;曹东;;改进的k-means算法在客户细分中的应用研究[J];微型机与应用;2005年12期
19 单世民;于红;张业嘉诚;刘馨月;;基于最近共享邻居节点的K-means聚类算法[J];计算机工程与应用;2008年06期
20 王颋;姜鹏飞;;一种基于遗传算法的聚类算法[J];软件导刊;2008年01期
中国重要会议论文全文数据库 前10条
1 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
9 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
10 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
2 谢可;物流配送系统中聚类算法的研究与应用[D];浙江大学;2006年
3 何春霞;三角不等式原理对聚类算法的改进[D];兰州大学;2006年
4 黎慧娟;校园网用户行为的分析与研究[D];广西大学;2007年
5 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
6 赵杰;中国物流中心信息检索系统的算法设计[D];中国地质大学(北京);2006年
7 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
8 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
9 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
10 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
中国重要报纸全文数据库 前3条
1 ;视频数据中挖“宝”[N];计算机世界;2002年
2 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
3 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978