收藏本站
《西安电子科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析及其在文本挖掘中的应用

李健  
【摘要】:随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究已经引起了广泛的重视,并取得了良好的成果。 本文首先对数据挖掘中的聚类分析做了深入的理论研究,以数学的形式表示和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念,分析了五种常用的聚类算法,并对算法性能做了分析与比较。 本文随后对于聚类分析在文本挖掘中的应用——文本聚类做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算法。 最后,给出了一个简单的文本聚类模型,并基于K—means文本聚类算法,对模型做了一种设计和实现。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前3条
1 张涛;;数据挖掘在论文管理系统中的运用[J];科技广场;2008年03期
2 单蓉;;文本聚类算法的比较研究[J];内江科技;2008年12期
3 马芳;王效岳;;基于数据挖掘技术的专利信息分析[J];情报科学;2008年11期
中国硕士学位论文全文数据库 前10条
1 罗璇;基于数据挖掘技术的专利信息分析及应用研究[D];首都经济贸易大学;2011年
2 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年
3 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年
4 蒋志为;基于模糊集的蚁群聚类算法研究[D];西南交通大学;2006年
5 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
6 王礼刚;基于XML的Web文本数据挖掘研究[D];西南大学;2007年
7 王钦;基于数据挖掘的智能答疑系统的研究与设计[D];济南大学;2007年
8 唐明珠;形式概念分析和本体在文本挖掘中的应用[D];兰州理工大学;2008年
9 李飞;基于内容挖掘的专利信息分析的方法体系及应用研究[D];南京理工大学;2008年
10 孔令俊;利用高斯生成数据对聚类算法的比较[D];河北大学;2008年
【参考文献】
中国期刊全文数据库 前8条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
3 叶飞跃;数据挖掘过程中的模糊聚类方法[J];计算机与现代化;2003年09期
4 蒋加伏,罗晓萍,唐贤瑛,朱金好;数据聚类的FCM与aiNet方法[J];计算机工程与设计;2004年04期
5 路志英,林孔元,郭祺,段广玉;中文切分词典的最大匹配索引法[J];天津大学学报;1999年05期
6 李健,马力,武波;一种基于Web文本聚类的用户兴趣发现模型的研究[J];现代电子技术;2004年23期
7 赵丹群;数据挖掘:原理、方法及其应用[J];现代图书情报技术;2000年06期
8 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
4 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
5 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
6 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
7 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
8 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
9 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
10 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 郝丽;刘乐平;;健康心理学研究与数据挖掘[A];江西省抚州市社科联论文集(2002-2003)教育文化类[C];2003年
8 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 朱传军;常治斌;;制造车间不确定信息研究现状与趋势[A];2006年湖北省博士论坛——先进制造技术与制造装备论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
4 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
5 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 陈进杰;城市轨道交通项目广义全寿命周期成本理论与应用研究[D];北京交通大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 齐静;数据挖掘在煤炭企业人力资源管理系统中的应用[D];山东科技大学;2010年
5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
6 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
7 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
8 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
9 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
10 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
2 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
3 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
4 陈云飞,刘玉树,钱越英,赵基海;一种基于密度的启发性群体智能聚类算法[J];北京理工大学学报;2005年01期
5 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
6 杨德亮;;混合动力节能汽车研究现状及发展趋势[J];交通节能与环保;2007年02期
7 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
8 华鹰;论企业技术创新中的专利战略[J];重庆工学院学报;2005年04期
9 吕安民,林宗坚,李成名;数据挖掘和知识发现的技术方法[J];测绘科学;2000年04期
10 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
中国博士学位论文全文数据库 前10条
1 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 齐红;基于形式概念分析的知识发现方法研究[D];吉林大学;2005年
5 李云;概念格分布处理及其框架下的知识发现研究[D];上海大学;2005年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
9 徐慧明;可识别潮流转移的广域后备保护及其控制策略研究[D];华北电力大学(北京);2007年
10 胡建军;中药药理知识发现系统中关键技术的研究[D];四川大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
2 石冰辉;基于虚拟现实的景观仿真应用研究[D];长安大学;2011年
3 许文武;基于视频的运动目标检测与跟踪方法应用研究[D];江苏科技大学;2011年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
6 孙同江;飞行数据的应用研究[D];南京航空航天大学;2003年
7 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
8 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
9 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
10 黄隽毅;关于Web数据挖掘中HITS算法的研究[D];大连理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 李小平;任恩恩;;异构数据库相似语义属性聚类过程研究[J];铁道科学与工程学报;2012年02期
2 陈应显;;基于模糊集的蚁群空间聚类方法研究[J];计算机工程与应用;2011年02期
3 徐丽;丁世飞;;粒度聚类算法研究[J];计算机科学;2011年08期
4 李颖;贾二鹏;马力;;国内外共词分析研究综述[J];新世纪图书馆;2012年01期
5 顾震宇;;基于案例分析的区域专利分析方法应用研究[J];情报杂志;2010年08期
6 魏兵;李亚非;;基于同被引矩阵的专利引文分析方法[J];计算机工程与设计;2010年08期
7 郑霞;陈建国;;基于XML的Web内容挖掘方法[J];沈阳大学学报(自然科学版);2012年03期
8 马春英;曹安得;周允征;;蚁群聚类组合的改进算法[J];沈阳建筑大学学报(自然科学版);2011年04期
9 赵连明;刘宏军;邹颖;;高校图书馆的专利文献服务研究[J];图书馆学刊;2011年09期
10 李村合;李晗;;基于词共现模型与DOM的石油主题采集策略[J];微计算机应用;2008年02期
中国博士学位论文全文数据库 前2条
1 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
2 李鹏;基于专利信息分析的生物侦检技术发展研究[D];中国人民解放军军事医学科学院;2012年
中国硕士学位论文全文数据库 前10条
1 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
2 巴金;电动汽车的专利分析研究[D];吉林大学;2011年
3 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
4 王燕;基于XML的Web文本挖掘及关联算法的研究[D];江苏科技大学;2011年
5 王艳领;专利等级划分方法的研究与实现[D];河北工业大学;2011年
6 乜丽丽;基于专利分析的技术成熟度预测方法研究与实现[D];河北工业大学;2011年
7 姜阳阳;基于共词分析的组织变革知识图谱研究[D];东北财经大学;2011年
8 胡俊;基于本体的共词分析技术在生物医学文献研究热点中的应用研究[D];复旦大学;2011年
9 卢宁;面向知识发现的知识关联揭示及其应用研究[D];南京理工大学;2007年
10 阚洳沂;基于词语网络的关键字提取策略研究[D];西南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 陈栋;刘兵;徐洁磐;;KDD研究现状及发展[J];计算机科学;1996年06期
4 王清毅;陈恩红;蔡庆生;;知识发现的若干问题及应用研究[J];计算机科学;1997年05期
5 朱廷劭;高文;;KDD:数据库中的知识发现[J];计算机科学;1997年06期
6 沈达阳;孙茂松;;万维网知识挖掘方法的研究[J];计算机科学;2000年02期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
9 张永奎;机器可读词典的快速查找技术[J];中文信息学报;1994年02期
10 林亚平;异或哈希算法查找中文词组性能评价[J];中文信息学报;1995年01期
【相似文献】
中国期刊全文数据库 前10条
1 万红新;彭云;;模糊策略下的搜索文本聚类分析技术[J];计算机工程与应用;2009年33期
2 刘彦保;王文发;王文东;;基于聚类分析策略的Web文本挖掘方法[J];延安大学学报(自然科学版);2007年04期
3 单蓉;;文本聚类算法的比较研究[J];内江科技;2008年12期
4 葛小培;孙涌;马玉龙;陈祥荣;;基于文本挖掘的专利分析工具的比较研究[J];现代情报;2010年04期
5 闫雷;崔雷;;急性白血病相关基因的文本挖掘分析[J];情报学报;2008年02期
6 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
7 李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期
8 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
9 李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期
10 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
6 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
8 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
10 房海灵;李维林;于盱;梁呈元;;薄荷属植物的数量分类[A];中国植物学会植物结构与生殖生物学专业委员会、江苏省植物学会2007年学术年会学术报告及研究论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
8 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
9 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
10 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
5 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
6 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
7 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
8 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
9 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
10 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
2 杨占华;聚类分析研究及其在文本挖掘中的应用[D];西南交通大学;2006年
3 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
4 闫雷;急性白血病相关基因的文本挖掘分析[D];中国医科大学;2006年
5 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
6 李健;聚类分析及其在文本挖掘中的应用[D];西安电子科技大学;2005年
7 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
8 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
9 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026