收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

云模型在文本挖掘应用中的关键问题研究

代劲  
【摘要】:文本挖掘(Text Mining,简称TM)是以文本信息作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的、具有潜在价值知识的过程。TM在信息检索、模式识别、自然语言处理等等多个领域均有所涉及。由于文本是信息存储的最主要途径,因此TM的重要性也日益凸显。 在目前TM的研究中,传统的数据挖掘方法依然占据着主导地位。然而随着TM技术研究的进一步深入,将传统的数据挖掘方法应用于TM面临着越来越严峻的挑战。例如文本对象的高维稀疏性、算法复杂度过高及需要先验知识等等问题,已经严重阻碍了TM技术的推广应用。 TM面临的这些难题归根到底都是由于自然语言的不确定性造成的。自然语言中(尤其是文本语言)的不确定性,本质上来源于人脑思维的不确定性。这种不确定性使得人们具有更为丰富的理解空间与更为深入的认知能力,然而随之而来也形成了TM的众多难题。因此,若能从降低自然语言的复杂性入手,在充分利用现有技术的基础上勇于创新,探索出适用于TM的不确定性人工智能处理方法,将会大大促进TM技术的快速发展。 借助不确定性知识研究的重要工具——云模型在定性概念与定量数据间的转换作用,作者将云理论引入TM关键问题研究当中。用以抛砖引玉,为TM技术的进一步发展提供一种新的思路与解决方法。本文的主要内容如下: ①云模型在TM中的理论扩充。 对文本知识表示以及相应模型的物理空间转换方法、文本概念的相似性度量进行了研究,为云模型的引入打好理论基础。包含以下三个方面内容: 1)基于VSM的文本信息表。将知识表示中信息表的概念引入文本表示,在VSM模型基础上将文本系统用文本信息表来进行知识表示。 2)基于云模型的文本信息表转换。文本间的不确定性关系可以通过云模型进行概念表示,但前提是各属性的取值须处于相同的论域内。也就是说文本在不同属性上的值都有必须具有同一物理含义。未处理的文本信息表属性含义不统一并且取值也差异较大。因此,在利用云模型进行数据挖掘前,必须将文本信息表进行转换。在概率统计方法的基础上,本文提出一种新的文本信息表转换方法。通过该方法,文本信息表由不同属性空间转换成同一物理空间中,体现了属性取值的概率分布。 3)基于云相似度的文本云相似度量。目前TM中一般使用余弦相似度来衡量文档之间的相关性,但目前无论哪一种相似度度量方法均是以基于对象属性之间的严格匹配进行计算,而对文本对象的整体性考虑不足。结合TM中文本对象的整体性质与个体特点考虑,本文提出了基于云向量数字特征的云相似度。用云向量的数字特征来对文本进行整体刻画,文本间的相似即可转换为云向量之间的相似进行度量。此相似度不仅能快速提高挖掘性能,找出对象间的共性特点,而且能充分考虑到属性值的随机性与模糊性。 ②基于云模型的文本特征自动提取算法。 特征选择是文本特征降维的一种有效方法。现有选择尺度的确定均通过实验验证得到,即基于经验的方法。在综合考虑文本特征整体与局部分布基础上,提出了一种高性能的文本特征自动提取算法。算法应用云隶属度对特征分布进行修正,在不需任何先验知识的条件下通过云隶属度大小来对特征权值进行刻画并完成特征的选择,充分体现了特征的概率分布特点。通过横向实验对比与结果分析,显示出该特征集不仅特征个数较少,而且分类精度较高,在性能上领先于主要的一些特征选择方法。 ③基于云概念跃升的文本分类算法。 云模型对定性知识表示、定性定量知识转换具有较好的处理能力。在此基础上,利用云模型中的概念抽取方法来进行文本分类应用。在将文本集转换为基于VSM模型的文本知识表的基础上,对训练集中相同类别文档的定性概念进行跃升。根据测试文本与各类别定性概念之间云相似度的大小决定测试文本所属类别。通过在不同特征提取方法下与不同分类器的性能对比,证明该算法不仅具有较强的特征适应能力,在分类性能上也优于主流的分类器。 ④基于云相似度量的快速无监督文本聚类。 针对目前文本聚类算法存在的问题,提出了一种基于云相似度量的快速无监督文本聚类算法。该算法以特征自动提取算法为基础,在k-Means动态聚类算法上,用逐级逼近的策略来获取最优k值。k值获取的过程也就是自动聚类的过程。在此过程中,提取每一个文本的云模型数字特征,然后采用云相似度来计算文本和文本间的相似程度。该算法不仅避免了文本对象的高维稀疏性,而且保留了k-Means均值算法的高效。同时,逐级逼近的策略也解决了聚类簇数需先验知识的缺点,得出的聚类结果更符合文本分布特点。
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP3;TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 岳训,李全忠,孙忠林,张艳奇;定性预测系统的建模方法[J];计算机工程;2001年09期
2 岳训,孙忠林,张艳琦,李光忠;基于云模型的网页吸引度定性测试的研究[J];计算机工程;2001年12期
3 杜鹢,李德毅;基于云的概念划分及其在关联采掘上的应用[J];软件学报;2001年02期
4 张利民;李静;;基于云模型的案例推理研究[J];福建电脑;2010年05期
5 韦修喜;曾海文;周永权;;云人工鱼群算法[J];计算机工程与应用;2010年22期
6 蒋嵘;基于形态表示的时间序列相似性搜索[J];计算机研究与发展;2000年05期
7 田永青,杜国宁,李志,朱仲英;基于云理论神经网络决策树的生成算法[J];上海交通大学学报;2003年S2期
8 郑恩让;回立川;;时滞系统的云模型智能控制[J];计算机工程与应用;2006年26期
9 姜伟;高知新;李本喜;;基于多维云模型的入侵检测[J];计算机工程;2006年24期
10 秦昆;王佩;;基于云变换的曲线拟合新方法[J];计算机工程与应用;2008年23期
中国重要会议论文全文数据库 前10条
1 邸凯昌;李德仁;李德毅;;云模型的扩展及其在空间数据发掘中的应用[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
2 栾媛媛;张沫;秦培玉;;基于云模型的客户终端偏好模型研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 胡华超;贾鑫;吴彦鸿;初晓;陈颖颖;;基于云模型的SAR干扰图像效果评估研究[A];第八届全国信息获取与处理学术会议论文集[C];2010年
4 胡华超;贾鑫;吴彦鸿;武威;;基于AHP-云模型的SAR干扰图像效果评估[A];第八届全国信息获取与处理学术会议论文集[C];2010年
5 王波;张斌;;一种基于云模型的时间序列特征表示方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 杜红梅;刘明盛;;基于云模型的风险评估方法研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
7 董海青;侯旭;刘勇;;一种新的基于业务的网络可用性评估方法[A];中国通信学会第六届学术年会论文集(下)[C];2009年
8 王洪利;冯玉强;;基于云模型标度判断矩阵的改进层次分析法[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
9 张利民;张冬雯;;基于多维半升云模型的事物特性的综合评价[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 孙岩;张指浩;李德毅;;一种基于信任网络的交易信息搜索模型[A];2006全国复杂网络学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 安徽 高伟;拒绝“附件大小限制”[N];电脑报;2004年
2 柯文;二十步变一步怎么可能呢?[N];科技日报;2002年
3 北京 Qinter;如何修补损坏的系统文件[N];电脑报;2001年
4 PCnews;如何修补损坏的系统文件[N];江苏经济报;2002年
5 dream & zeus;给“文本域”添加外套[N];电脑报;2004年
6 新平;电脑 A B C[N];中国老年报;2001年
7 李军;MP3播放器自己做[N];中国电脑教育报;2001年
8 北京汉王科技公司 王晋刚;OCR技术缩影[N];中国计算机报;2000年
9 老曹;掌上电脑这么玩[N];中国电脑教育报;2003年
10 侯金平;用WPS Office谱写乐章[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
3 江迎;基于云模型和GIS/RS的坝堤溃决风险分析及灾害损失评估研究[D];华中科技大学;2012年
4 许凯;云模型支持下的遥感图像分类粒计算方法研究[D];武汉大学;2010年
5 王佐成;基于纹理的遥感图像分类研究[D];西南交通大学;2007年
6 闫斌;基于簇的无线传感器网络路由及其鲁棒性评估研究[D];电子科技大学;2009年
7 甘志刚;仿人机器人数字仿真与虚拟示教关键技术研究[D];华南理工大学;2009年
8 杜湘瑜;基于综合集成的虚拟样机测试与评估理论和方法研究[D];国防科学技术大学;2005年
9 张长伦;移动Ad Hoc网络自组织公钥管理研究[D];北京交通大学;2008年
10 刘继;基于网络社团分析的协作推荐方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
2 冯莉;面向英文电影评论的文本情感倾向性分类研究[D];大连海事大学;2013年
3 丁昊;云模型在水体富营养化评价及水文序列展延中的应用[D];南京大学;2013年
4 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
5 周洲;面向汽车运行工况仿真的车辆跟驰云模型研究[D];吉林大学;2012年
6 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
7 王小洁;基于云模型的我国石油海洋运输安全评价研究[D];中国海洋大学;2012年
8 孙赫珩;基于云模型癌症相关基因分类预测的研究[D];吉林大学;2012年
9 王洁;基于云模型的推理规则在空气质量预报中的应用[D];安徽农业大学;2011年
10 项勃;点云模型局部细节提取与融合技术研究[D];南京航空航天大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026