收藏本站
《西南交通大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

Web文档聚类系统的设计与实现

江永全  
【摘要】:我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。 本文首先对Web文档聚类中的数据表示方法、特征提取、权值计算进行了系统的研究,并开发了一整套从网上下载新闻、提取新闻正文、提取词干、计算权值、聚类、聚类结果可视化的软件,软件采用了XML和多线程技术。 介绍和分析了K-means聚类算法,并对Web文档聚类中的欧氏距离进行改进。改进后的欧氏距离与传统欧氏距离相比,提高了聚类的质量和速度。改进的欧氏距离与文本聚类中常用的余弦距离效果相当。 提出一种基于交集的聚类组合算法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果中对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近的聚类中心,或者不经过投票直接将有争议的对象分配给最近的聚类中心。 实现了随机点图、顺序点图、电子云图、条形图、饼图五种聚类结果可视化方法。这些方法各有优点,可配合起来使用。其中的顺序点图对象的位置固定,可在图形上显示每个对象的相关信息,适合动态显示聚类过程,在本文中得到广泛应用。 最后用多个Web数据集进行实验,验证了基于交集的聚类组合算法的有效性。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP18;TP311.52

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 彭宏玉;柴旭光;陈晓纪;;基于层次迭代思想的聚类算法的研究[J];唐山学院学报;2011年03期
2 赵向梅;王艳君;刘林;;聚类算法及聚类融合算法研究[J];电子设计工程;2011年15期
3 王家胜;;聚类分析在高校图书馆读者群体细分中的应用[J];农业图书情报学刊;2011年09期
4 王颖;刘建平;;基于改进遗传算法的K-means聚类分析[J];工业控制计算机;2011年08期
5 刘文军;游兴中;;一种改进的凝聚层次聚类法[J];吉首大学学报(自然科学版);2011年04期
6 秦福高;孙悦娟;;聚类与关联规则挖掘进行结合的研究[J];电脑知识与技术;2011年14期
7 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
8 张俊溪;吴晓军;;一种新的基于进化计算的聚类算法[J];计算机工程与应用;2011年24期
9 佟泽华;姚伟;陈全平;;基于DW+DM融合模式的企业竞争情报系统(E-CIS)研究[J];情报杂志;2011年07期
10 薛调;;近六年国内图书馆学情报学研究论文热点分析[J];情报科学;2011年07期
中国重要会议论文全文数据库 前10条
1 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 潘玉奇;石冰;周劲;袁宁;;基于多维数据模型的聚类分析的研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
4 田小丽;郑康锋;钮心忻;;一种基于改进K-Medoids算法的网络攻击检测技术[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 王静;汪晓刚;;一种新的保护原始数据隐私性的聚类算法[A];第十届中国科协年会论文集(三)[C];2008年
6 张昕;彭宏;郑启伦;;基于微粒群算法的聚类分析[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 刘剑;;基于数据挖掘聚类的节理统计分析方法[A];中国水力发电工程学会第四届地质及勘探专业委员会第一次学术交流会论文集[C];2008年
9 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
10 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
2 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
3 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
4 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
5 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
6 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
7 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
8 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
9 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
10 ;数据挖掘流程[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
2 张瑀;基于实验数据挖掘与细胞自动机的结构分析方法[D];哈尔滨工业大学;2010年
3 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
4 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
5 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
6 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
7 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 王天真;基于神经网络的智能数据挖掘方法及应用研究[D];上海海事大学;2003年
2 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
3 侯雪波;关联规则挖掘技术在电力市场营销分析中的应用[D];天津大学;2005年
4 武兆慧;基于遗传算法的聚类方法研究[D];山东师范大学;2006年
5 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
6 唐艺军;基于蚁群算法的数据挖掘应用研究[D];辽宁工程技术大学;2007年
7 罗贤缙;聚类分析在电力营销中的应用研究[D];华北电力大学(河北);2005年
8 王石;进化神经网络聚类技术及其在数据挖掘中的应用[D];山东大学;2005年
9 王煜;基于模式相似的子空间聚类算法研究[D];河海大学;2006年
10 叶炼炼;基于数据挖掘的网络流量采集模型研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026