收藏本站
《山东科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

WEB文本挖掘的聚类分析

张兆中  
【摘要】:数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么我们就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。 文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。 通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主要手段研究文本聚类。同时研究过程中吸纳了信息论中的一些思想。在大量的实验基础上,提出了两种基于贝叶斯理论和信息论思想的聚类算法。通过数据测试和不同算法的对比分析,算法显示出了较好的性能。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
2 王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期
3 刘永山,汤毅,陈雯柏,曾昭天;数据挖掘技术的研究[J];重庆工业高等专科学校学报;2003年02期
4 王艳;数据挖掘在数字图书馆中的应用[J];现代图书情报技术;2002年05期
5 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
6 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
7 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
8 唐明;张自力;;文本挖掘在多文化交流平台中的应用研究[J];西南师范大学学报(自然科学版);2006年03期
9 肖红;康岚兰;;文本挖掘与信息融合技术在高校信息网络中的应用[J];科技广场;2006年11期
10 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
3 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
6 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
9 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
2 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
3 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
4 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
5 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
6 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
7 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
8 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
9 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
10 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 李明;数据清洗技术在文本挖掘中的应用[D];南京理工大学;2008年
2 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
3 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
4 杨占华;聚类分析研究及其在文本挖掘中的应用[D];西南交通大学;2006年
5 李伯阳;文本聚类方法研究及其应用[D];厦门大学;2008年
6 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
7 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
8 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
9 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
10 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026