收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本聚类技术及聚类结果可视化研究

马连浩  
【摘要】: 随着Internet和计算机网络技术的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。人们急需从大量的Web数据资源中快速、有效地获取感兴趣的知识和模式。而Web文本聚类是Web数据挖掘的核心基础研究课题之一。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用,它能帮助知识工作者高效而准确的发现与某个文本最相似的文本;提高信息检索系统的返回率(Recall)和精确度(Precision);能提高搜索引擎的个性化推荐度。因为在Web网络上最常见的数据格式就是以HTML标记语言表示的Web文本,所以对Web文本进行聚类分析是一项非常重要并且很有价值的工作。本文主要研究Web文本聚类及聚类结果的可视化技术。 本文首先介绍了文本聚类的概念和Web数据挖掘分类,以及常用的文本聚类方法,以及相关数据预处理、簇评估和聚簇可视化等相关技术。 其次,系统阐述了Web文本聚类系统的处理流程,以及涉及到的关键技术,分析了这些技术的研究现状和存在的问题。 然后,分析了K-Means基本算法思想基础上,提出一种新的针对Web文本聚类的特征权重调整公式,该权重优化公式综合考虑了HTML文本标签信息和Web文本位置语义,同时,增加了信息增益权重计算因子,提高特征词的类区分能力。本文同时在总结和分析现有数据可视化基础上,对传统的平行可视化方法和2D散点图进行改进,实现了基于平行坐标数据动态可视化聚类分析和更直观的维嵌套数据表示方法。增强了传统平行坐标数据可视化方法的交互性、实用性和信息反馈的即时性。 最后,在以上研究基础上,设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较,验证改进算法的有效性。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 任佳;雷虎;;基于孤立点检测的异常客户行为分析[J];科技广场;2008年12期
2 区晶莹;简荣;俞守华;;数据挖掘技术在农产品质量安全监管中的应用[J];安徽农业科学;2009年32期
3 俞琳琳,吉根林;离群数据挖掘方法研究[J];信息技术;2005年11期
4 赵岩;赵慧娟;;数据挖掘理论与技术[J];福建电脑;2006年02期
5 张鹏;;浅谈数据挖掘技术及其应用[J];科技信息(学术研究);2008年12期
6 张晓明;刘萍;王鹏;;基于数据仓库的数据挖掘及联机分析技术[J];兵工自动化;2008年09期
7 成博;张文明;;数据挖掘与数字图书馆个性化服务[J];青岛远洋船员学院学报;2008年03期
8 刘磊;;数据挖掘技术分析及其在零售行业的应用[J];商场现代化;2009年06期
9 迟春佳;;数据挖掘在高校图书馆图书采购计划制订中的应用[J];农业图书情报学刊;2009年06期
10 薛向阳;;数据挖掘的模式类型及其应用领域[J];科技信息;2009年16期
11 谢笑盈;;数据挖掘在现代商业管理中的应用[J];现代商业;2009年33期
12 郭理桥;;数据挖掘在政府信息系统设计中的应用研究[J];中国建设信息;2010年04期
13 魏一搏;;浅谈数据挖掘在高校科研业务管理系统中的应用[J];信息系统工程;2010年04期
14 朱智沛;;基于数据挖掘技术的手机客户需求分析[J];信息系统工程;2011年03期
15 张特来,刘万军;数据挖掘在医学领域的应用研究[J];自动化技术与应用;2005年10期
16 刘莉;;数据挖掘在企业信息服务中的应用[J];现代情报;2006年06期
17 王庆建;;聚类分析在上市公司财务数据中的应用研究[J];安徽电子信息职业技术学院学报;2007年02期
18 陈亮;卢欣荣;曹文梁;;数据挖掘方法与可视化[J];福建电脑;2007年07期
19 黄红艳;才秀凤;李霞;;数据挖掘理论与技术研究[J];科技信息(学术研究);2007年24期
20 刘斓冰;高学东;王沙骋;;基于Web的文本信息挖掘技术[J];情报探索;2007年07期
中国重要会议论文全文数据库 前10条
1 马洪杰;曲晓飞;;数据挖掘技术和过程的特点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 戈欣;吴晓芬;许建荣;;数据挖掘技术在放射科医疗管理中的潜在作用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
3 房伟;逄玉俊;路爽;;基于相异度系数和的孤立点挖掘应用与研究[A];2006“数学技术应用科学”[C];2006年
4 魏元珍;杨沂凤;;数据挖掘技术及其在数字图书馆中的应用[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
5 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年
6 巩耀亮;邱晓东;孙丽君;李树强;;数据挖掘技术在企业竞争情报系统中的应用研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
7 王洪锋;;数据挖掘在客户关系管理中的应用研究[A];河南省通信学会2005年学术年会论文集[C];2005年
8 杨利军;勾学荣;;数据挖掘在移动客户流失预测中的研究和应用[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
9 姚小磊;彭清华;;数据挖掘技术在中医眼科应用的设想[A];中华中医药学会第七次眼科学术交流会论文汇编[C];2008年
10 张婧;;数据挖掘技术在进销存系统中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
中国博士学位论文全文数据库 前10条
1 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
2 庞淑英;三江并流带旅游地质景观数据挖掘及旅游价值评价研究[D];昆明理工大学;2008年
3 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
4 高清东;复杂供矿条件矿山技术指标整体动态优化系统及应用[D];北京科技大学;2005年
5 李兴;高光谱数据库及数据挖掘研究[D];中国科学院研究生院(遥感应用研究所);2006年
6 王玉峰;变电站瞬态电磁环境及微机保护系统EMC研究[D];大连理工大学;2007年
7 潘海天;数据挖掘技术在聚合过程建模与控制的应用研究[D];浙江大学;2003年
8 程其云;基于数据挖掘的电力短期负荷预测模型及方法的研究[D];重庆大学;2004年
9 束志恒;化学化工数据挖掘技术的研究[D];浙江大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 马连浩;Web文本聚类技术及聚类结果可视化研究[D];大连交通大学;2008年
2 孙秀娟;基于遗传算法的K-means聚类算法分析研究[D];山东师范大学;2009年
3 杨丽娜;基于遗传算法的数据挖掘技术研究[D];西安建筑科技大学;2007年
4 毛志雄;基于DM技术的化工生产过程控制的优化研究[D];中南大学;2005年
5 王清江;基于力学的聚类算法[D];大连理工大学;2006年
6 田静;数据挖掘技术在防范住房信贷风险中的应用[D];贵州大学;2007年
7 崔贯勋;基于密度的离群数据挖掘算法研究[D];重庆大学;2007年
8 李宁;基于密度的孤立点检测技术研究[D];华中科技大学;2007年
9 翟旭君;基于平行坐标的可视化数据挖掘技术研究[D];清华大学;2005年
10 金萍;调整学习聚类算法的研究[D];合肥工业大学;2008年
中国重要报纸全文数据库 前10条
1 陈晓 山西财经大学教师;数据挖掘技术在高校教学管理中的应用[N];山西经济日报;2010年
2 记者 周轩千;CPI权重调整又惹争议[N];上海金融报;2010年
3 记者 吕贤如;大力加强数据挖掘技术研究应用[N];光明日报;2006年
4 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
5 首之;数据挖掘并不神秘[N];金融时报;2006年
6 记者 秦菲菲;统计局详解权重调整对CPI影响[N];上海证券报;2011年
7 证券时报记者 岩雪;权重调整 1月CPI数据或低于预期[N];证券时报;2011年
8 早报记者 罗晟;“CPI权重调整”难掩通胀势头[N];东方早报;2011年
9 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年
10 主持人 本报记者 何卓 童海华;权重调整拉低CPI了吗?[N];中国经济导报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978