收藏本站
《复旦大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

不同类型数据间的聚类算法

刘四维  
【摘要】: 随着信息时代的发展,人们所能获取的数据正成指数形式的爆炸式增长。这些数据往往都具有不同的数据类型,如何在这些不同类型的数据之间建立联系并聚类,便是本文研究的课题。我们提出通过两个步骤来完成不同类型数据间的聚类:第一个步骤是对数据的预处理。我们重点介绍了对网页数据的预处理,并提出了基于块模板的网页去杂算法,和基于Bloom Filter的网页去重算法。在网页去杂算法中,我们以较小的颗粒度来提取模板,使得网页去杂算法的精确度更高;同时我们利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。第二个步骤是对数据的聚类。我们提出,对不同类型的数据采用不同的聚类算法(使用K-means算法对网页数据聚类,使用关联性分析对表格数据聚类),以便充分利用不同类型数据的特点,最后整合这些聚类的结果,从中找出不同类型数据之间的联系,进而完成整个聚类过程。在我们的实验中,我们尝试利用以上算法为信用卡用户提供广告信息,实验结果表明我们的算法可以很好的完成网页数据的预处理工作,并建立起表格数据和网页数据之间的联系,为用户提供更好的个性化广告服务。
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前1条
1 刘四维;章轶;夏勇明;钱松荣;;基于HTML标记和长句提取的网页去重算法[J];微型电脑应用;2009年08期
【共引文献】
中国期刊全文数据库 前2条
1 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期
2 徐娜;刘四维;汪翔;倪卫明;;基于Bloom Filter的网页去重算法[J];微型电脑应用;2011年03期
中国硕士学位论文全文数据库 前5条
1 田鹤楠;质检总局舆情监控系统中信息抽取的研究[D];北京邮电大学;2011年
2 李倞婧;面向网页去重的特征提取与重复模式发现[D];哈尔滨工程大学;2011年
3 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年
4 栾艳;基于段落指纹的大规模近似网页检测算法研究[D];南京理工大学;2012年
5 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张伟;陈春燕;;一种基于概率密度的数据流聚类算法[J];计算机应用;2007年04期
2 李丽君;;结合空间信息的模糊C均值聚类的图像分割算法[J];辽宁石油化工大学学报;2010年04期
3 陈福盈;;等混合法的数据处理[J];中南大学学报(自然科学版);1986年03期
4 李卫平;张志鸿;;万有引力定律在聚类中的应用[J];安阳工学院学报;2006年04期
5 王小乐;刘青宝;陆昌辉;陈文凯;;一种处理障碍约束的聚类算法[J];计算机应用;2009年02期
6 姜浩;崔荣一;;一种基于粒子群算法的聚类算法[J];延边大学学报(自然科学版);2009年01期
7 印桂生;于翔;宁慧;;基于粗约简的数据流增量聚类算法[J];西南交通大学学报;2009年05期
8 蔡妮明;王翰虎;陈梅;;一种基于滑动窗口的流数据聚类算法[J];计算机技术与发展;2011年01期
9 须文波;胡永钢;龙海侠;孙俊;;基于QPSO的数据聚类及在图像颜色分割中的应用[J];计算机工程与应用;2007年19期
10 吴贞珍;黄建华;;DBSCAN聚类算法在异常检测中的应用[J];计算机安全;2007年08期
中国重要会议论文全文数据库 前10条
1 ;A Genetic Algorithm Based K-means for Time Series Clustering[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 陈磊;胡佳敏;严华;;K-means算法在散货船代货运系统中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 王丽玫;;WINNT下PHP的安装及使用[A];2002年广西气象电子专业技术交流会论文集[C];2002年
4 蒋昱城;周健;;基于d-Left Counter Bloom Filter的深度包检测[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
5 李文超;周勇;夏士雄;;一种新的基于层次和K-means方法的聚类算法[A];第二十六届中国控制会议论文集[C];2007年
6 ;A Novel Supervised Multi-model Modeling Method Based on k-means Clustering[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
7 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
8 ;A powerful denoising method based on non-local means filter for cryo-electron microscopic images[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
9 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
10 ;Fuzzy C-means Clustering-based Multilayer Perceptron Neural Network for Liver CT Images Automatic Segmentation[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前10条
1 贺宏良;Bloom: 数据,把我们的“野心”连在了一起[N];中国计算机报;2005年
2 王芳;《哈利·波特》的出版人——李兹·考尔德[N];中国图书商报;2003年
3 曹乙帆 DigiTimes;网页安全设计不良已成Web安全问题恶化的最大元凶[N];电子资讯时报;2007年
4 李柠;VERITAS马年迈大步[N];中国计算机报;2002年
5 崔红秀;企业网站建设应注意著作权问题[N];中国知识产权报;2007年
6 ;Veritas酝酿新辉煌[N];计算机世界;2001年
7 吴加录;Flash杀手来了[N];中国计算机报;2007年
8 本报记者 程鸿;开创安全存储时代[N];计算机世界;2005年
9 萨日娜;存储 让数字图书馆“大肚能容”[N];中国电脑教育报;2007年
10 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
中国博士学位论文全文数据库 前10条
1 于华;网络流量监控中的若干基本问题研究与分析[D];北京邮电大学;2011年
2 鹿长余;Ⅰ.实用的数量化证券投资策略研究 Ⅱ.Some Comments on Several Matrix Inequalities with Applications to Canonical Correlations[D];华东师范大学;2002年
3 朱桂明;非结构化对等网络资源定位技术研究[D];国防科学技术大学;2010年
4 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
5 张进;基于布鲁姆过滤器的IP骨干网流量分析前端处理算法研究[D];解放军信息工程大学;2008年
6 黄宁;遥感图象中模式分类技术的研究[D];中国科学院电子学研究所;2001年
7 王守强;多中心点聚类问题的随机算法[D];山东大学;2010年
8 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
9 郑自然;基于智能计算的计算机辅助建模方法研究[D];山东师范大学;2010年
10 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘四维;不同类型数据间的聚类算法[D];复旦大学;2010年
2 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
3 黄欢;基于Web数据挖掘的网页优化设计应用研究[D];电子科技大学;2012年
4 张立岩;基于网页结构的Web信息提取系统的设计与实现[D];吉林大学;2011年
5 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
6 高杨;基于Web标准的网页界面艺术个性化的研究与实现[D];北京林业大学;2010年
7 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
8 史秀岭;K-means聚类优化算法的研究[D];长沙理工大学;2011年
9 赵睿;扩散距离下的Kernel K-means聚类算法的改进[D];清华大学;2011年
10 贺小娜;基于Bloom Filter的超点检测算法的研究[D];大连海事大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026