收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

名词性属性距离度量问题及其应用研究

李超群  
【摘要】:基于实例的学习,包括最近邻学习、局部加权学习、以及基于记忆的推理等,都依靠一个好的距离度量获得成功。可以说,距离度量问题是基于距离的机器学习算法的核心所在。此外,距离度量还被广泛应用到模式识别、神经网络、统计学、以及认知心理学等各个领域。实例之间的距离度量一直是一个非常重要的问题。为此,学者们提出了许多距离度量。比如,Euclidean距离、Manhattan距离、Minkowsky距离、Mahalanobis距离、Camberra距离等等。然而,这些距离度量都只适用于数值属性而不适用于名词性属性。 相比数值属性的距离度量,名词性属性的距离度量是一个更加复杂的问题。为了给名词性属性值之间的距离以合理的估计,学者们做出了很多努力,提出了一些距离度量。比如,重叠度量(Overlap Metric, OM),值差度量(Value Difference Metric, VDM),修正的值差度量(Modified Value Difference Metric, MVDM),Short-Fukunaga度量(Short and Fukunaga Metric, SFM),最小风险化度量(Minimum Risk Metric, MRM),基于熵的度量(Entropy-Based Metric, EBM),及基于频率的度量(Frequency-Based Metric, FBM)等等。 在现实问题中,大量的数据集都涉及到名词性属性。名词性属性距离度量相比数值属性更加复杂。本论文将主要针对名词性属性的距离度量问题展开研究。主要考虑的问题有以下几点:1、如何理解距离度量中的属性独立性假设? VDM是一个被广泛应用的名词性属性距离度量,而据我们分析,VDM是作了属性独立假设的。在VDM中,两个实例之间的距离是每一维距离的叠加,维与维之间没有关联。事实上,大多数的距离度量都是如此,如最简单的处理名词性属性的距离度量OM,还有处理数值属性的Euclidean距离和Hamming距离等,都是利用的这种每一维距离的简单叠加来度量实例之间的距离的。我们认为,这种简单的叠加实质上就是假设每一维是相互独立的。Kasif等人也指出,VDM作了和朴素贝叶斯分类器一样的属性独立假设。尽管这个不现实的属性独立假设,朴素贝叶斯分类器表现出了令人惊讶的分类性能,而VDM也是目前为止被应用最为广泛的名词性属性距离度量之一。那么,如何理解并应用这种属性独立假设,构造改进的或者新的距离度量,使之具有简洁、可理解、容易计算的特点呢? 2、如何在距离度量中体现属性之间的依赖关系?现实数据中,属性之间多半是存在依赖关系的。而大多数的距离度量,就像朴素贝叶斯分类器一样,作了属性独立假设。尽管朴素贝叶斯分类器表现出了令人惊讶的分类性能,但是当属性间存在强依赖关系时,朴素贝叶斯的分类性能受到了一定程度的伤害。为此,学者们利用各种技术对朴素贝叶斯分类器进行改进,一个有效的途径就是结构扩展。结构扩展的中心思想就是在朴素贝叶斯模型中利用有限的有向边来表达属性之间的依赖关系,得到扩展的贝叶斯网络分类器。现在已有很多学者提出了许多扩展的贝叶斯网络分类器,这些扩展的贝叶斯网络分类器用有向边来表达属性之间的依赖关系,在一定程度上放宽了属性独立假设,从而具有比朴素贝叶斯分类器更好的分类性能。既然表达属性依赖关系可以改进朴素贝叶斯分类器的性能,那么,能不能仿效扩展的贝叶斯网络分类器,把这种属性依赖关系也引入到距离度量中来,从而改进现有距离度量的性能,甚至构造新的距离度量,使这些距离度量在属性有强依赖关系的数据上表现出更好的性能呢? 3、如何尽可能准确地估测基于概率的距离度量中的类成员概率? 在处理名词性属性的距离度量中,有一部分需要估测概率,这部分距离度量被称为基于概率的距离度量,比如VDM,MVDM, SFM, MRM等。其中,一部分基于概率的距离度量又需要估测类成员概率。比如,上节中提到的SFM和MRM都需要估测实例x属于类成员c的概率P(c|x)。要使得这些基于概率的距离度量获得成功,如何尽可能准确地估测类成员概率P(c|x)是一个非常关键的问题。有研究表明:完全地估测类成员概率P(c|x)等同于学习一个最优的贝叶斯网络,是一个NP-hard问题。为降低计算复杂性,现有文献都是用朴素贝叶斯分类器进行近似估测,这在一定程度上影响了距离度量的性能。已有学者在人工数据集上的实验证明,如果可以准确的知道类成员概率,SFM和MRM可以比VDM具有更好的性能。其实,已有研究表明:朴素贝叶斯的类概率估测能力较差(尽管它是一个性能良好的分类器)。为了提高朴素贝叶斯的类概率估测能力,学者们提出了一些改进的贝叶斯模型。那么,能不能把类概率估测方面的研究成果应用于基于概率的距离度量中,提高各种距离度量中的类成员概率估测精度,从而改进相关距离度量的性能呢? 4、如何克服维度灾难问题? 本论文立意研究距离度量问题,而与距离度量密切相关的一个问题就是维度灾难问题(the Curse of Dimensionality Problem)。维度灾难问题已被众多的学者所关注,维度灾难问题是指当数据中有大量冗余或者不相关属性时,算法的性能会受到影响。维度灾难对距离度量所导致的问题在于,当数据中存在大量不相关属性时,如果用所有的属性来计算实例之间的距离,那么近邻间的距离会被大量不相关的属性所支配,从而导致计算出来的所谓近邻可能相去甚远。克服维度灾难问题的一种方法是属性加权,也就是考虑每个属性与类变量之间不同的相关性,给相关性较大的属性赋予较大的权值,从而抑制不相关属性对距离计算的影响。另一种更加强有力的方法是属性选择,也就是从属性空间中完全消除不相关的属性。近年来,学者们对属性加权和属性选择问题都已经作了大量的研究工作。现有文献已有大量的属性加权和属性选择方法方面的研究成果,本论文将特别针对名词性属性距离度量对这个问题继续进行深入探讨。比如OM因为其简单性,得到了广泛的应用。那么,能不能利用属性加权技术保持距离度量的简洁性,同时提高它的性能呢?对著名的VDM,既然这个距离度量作了属性独立假设。那么,能不能在这个假设的基础上,设计适合VDM的属性选择方法呢? 如前所述,机器学习、模式识别、神经网络、统计学、以及认知心理学等领域中的很多算法都涉及到距离度量,并且它们的性能都依赖于所使用的距离度量。比如,k-近邻(k-Nearest Neighbor, KNN)算法及其改进:距离加权的k-近邻(Distance Weighted k-Nearest Neighbor, KNNDW)算法、局部加权的朴素贝叶斯(Locally Weighted Naive Bayes, LWNB)算法等等。经过对前几个问题的研究势必会提出一些高性能的距离度量。因此,如何利用这些新提出的距离度量来改进上述这些距离相关算法的性能显得尤为重要。本论文将对这个问题进行深入研究。 鉴于上面提出的几点问题,本论文以名词性属性距离度量为研究对象,从不同的角度对现有的名词性属性距离度量进行了研究和改进。主要的工作如下 1、研究了距离度量中的属性独立假设; 尽管朴素贝叶斯分类器的属性独立假设众所周知,但距离度量中的属性独立假设还未引起学者们的广泛关注。论文第二章详细地讨论了值差度量(Value Difference Metric, VDM)中的属性独立假设,指出这个属性独立假设和朴素贝叶斯分类器的假设是一致的。在这个假设的基础上,以Short-Fukunaga度量(Short and Fukunaga Metric, SFM)为原型,提出了修正的Short-Fukunaga度量(Modified Short and Fukunaga Metric, MSFM)。实验证明,MSFM和VDM性能相当,超过了SFM和SFM的另一个修改版本SF2LOG。 2、将属性依赖关系引入距离度量中; 扩展的贝叶斯网络分类器通过引入属性依赖关系,获得了比朴素贝叶斯分类器更好的性能。论文第三章从理论和实验两方面调查了朴素贝叶斯分类器和一些扩展的贝叶斯网络分类器的性能。扩展的贝叶斯网络分类器利用有向边来表达属性之间的依赖关系,一定程度上释放了朴素贝叶斯的属性独立假设,由此改进了朴素贝叶斯分类器的性能。受扩展的贝叶斯网络模型的启迪,本论文将属性依赖关系引入到距离度量中,利用扩展的贝叶斯网络分类器来学习属性依赖关系,根据学到的属性依赖关系构造相应的距离度量。以值差度量(Value Difference Metric, VDM)为原型,提出了表达属性依赖关系的距离度量:一依赖的值差度量(One Dependence Value Difference Metric, ODVDM)。实验证明,在具有强依赖关系的数据上,ODVDM比VDM表现出了更好的性能。 3、提高基于概率的距离度量中的类成员概率估测精度; 基于概率的距离度量中有一部分需要估测类成员概率P(c|x),这些距离度量的性能直接受类成员概率估测精度的影响。论文第四章以基于概率的距离度量Short-Fukunaga度量(Short and Fukunaga Metric, SFM)和最小风险化度量(Minimum Risk Metric, MRM)为研究对象。因为SFM和MRM的性能极大地依赖于类成员概率P(c|x)的估测精度,现有文献一般用朴素贝叶斯来估测类成员概率。但已有文献表明朴素贝叶斯的类成员概率估测能力不高。为了提高朴素贝叶斯的类概率估测性能,学者们提出了大量改进的算法。论文第四章重点调查了这些算法的类概率估测性能,并利用它们来估测SFM和MRM的类成员概率值。实验表明,精确的类成员概率估测方法可以极大的提高SFM和MRM的性能。 4、利用属性加权途径改进距离度量; 属性加权途径是克服维度灾难问题的一个有效途径。论文第五章考察了最简单的名词性属性距离度量:重叠度量(Overlap Metric, OM),和最简单的可以同时处理名词性属性和数值属性的距离度量:异构欧几里得—重叠度量(Heterogeneous Euclidean-Overlap Metric, HEOM),利用属性加权的途径对其进行改进,提出了相关性加权的异构欧几里得—重叠度量(Correlation Weighted Heterogeneous Euclidean-Overlap Metric, CWHEOM)。在CWHEOM中,针对分类和回归问题,我们应用不同的技术提出了加权方案。在36个分类数据和36个回归数据上的实验表明,相关性加权的途径极大的改进了HEOM的性能,同时保持了距离度量的简洁性和可理解性。 5、利用属性选择途径改进距离度量; 前面章节中主要关注距离度量应用到距离相关算法时,是否能改进距离相关算法的的分类性能。其实,类概率估测也是机器学习和数据挖掘领域一个重要的问题。论文第六章以类概率估测为任务,研究了KNN及其改进KNNDW的类概率估测性能,关注当距离度量VDM被应用到KNN和KNNDW时,如何改进方法的性能。论文第六章应用属性选择的途径去改进VDM的性能。基于VDM作了属性独立假设这个基础,找到了适合VDM的属性选择方法CFS和SBC-CLL。实验结果表明,利用CFS和SBC-CLL为VDM作属性选择后,KNN和KNNDW的类概率估测性能有了很大提高。 6、应用论文中提出的距离度量到距离相关算法去处理地球物理和工程方面的实际应用问题。 本论文所有章节的实验都以UCI数据库(http://archive.ics.uci.edu/ml/datasets.html)中的大量数据集为实验数据,广泛调查了我们所提出的距离度量应用到距离相关算法时的泛化性能。除此之外,论文还以孔隙度预测、瓦斯量涌出预测、岩爆预测和边坡稳定性预测等一些地球物理和工程方而的实际应用问题为背景,调查了我们的距离度量应用到距离相关算法时在这些地球物理和工程问题数据集上的表现。 综上所述,本文将重点依托贝叶斯网络模型,对名词性属性的距离度量问题进行系统深入的研究。借鉴朴素贝叶斯分类器的研究成果,来研究距离度量中的属性独立假设;应用贝叶斯网络表达属性依赖关系的方法来学习距离度量,将距离度量的构造问题转化为属性依赖关系的学习问题;全面调查现有的类概率估测算法,并用来计算距离度量中的类成员概率,从而提高距离度量的性能,推动基于概率的距离度量的应用,使得距离相关的学习算法有更好的性能。因此本文的研究可以为名词性属性的距离度量新方法研究提供示例,具有重大的理论意义和应用前景。但因用贝叶斯网络来表达属性依赖关系和估测类成员概率本身具有一定难度,将其与距离度量问题联系起来,有几个关键科学问题尚待解决,这使得对这一问题的研究面临着不小的挑战。 论文的主要创新点如下: 1、朴素贝叶斯分类器的属性独立假设受到了学者们广泛的关注,但距离度量中同样存在的属性独立假设还未受到学者们广泛的关注。本论文对距离度量中的属性独立假设作了详细研究,并在此基础上提出了改进的距离度量。 2、提出将属性依赖关系引入距离度量问题中,构造新的距离度量,使之在有强依赖关系的数据上表现出更好的性能。主要借助贝叶斯网络分类器来学习属性依赖关系,将距离度量的构造问题转化为属性依赖关系的学习问题。 3、详细地研究了现有类成员概率估测方面的成果,并借助贝叶斯网络类成员概率估测器来提高基于概率的距离度量中的类成员概率估测精度。将距离度量问题和贝叶斯网络学习模型结合。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李萍;段富;;数据挖掘中数据约简的研究与应用[J];微计算机应用;2009年02期
2 张新红;张帆;张军亮;;一种改进的二值图像质量评价方法[J];计算机工程与科学;2010年06期
3 李俊丽;;概率查询及其算法研究[J];计算机与数字工程;2011年02期
4 全惠敏,寻纯阳;汉语连续语音识别的前置处理[J];湖南大学学报(自然科学版);1998年S1期
5 张鹰;李理;王昆鹏;李朝荣;;数据库入侵检测技术在数字图书馆中的研究[J];图书与情报;2008年01期
6 申晓勇;雷英杰;蔡茹;张弛;;基于加权Minkowski距离的IFS相异度度量方法[J];系统工程与电子技术;2009年06期
7 廖伟华;;GIS栅格数据的邻域粒化和粗糙逼近[J];地理空间信息;2011年04期
8 陆建新;李宏宇;沈一帆;陈文斌;;一种改进的局部线性嵌套方法[J];计算机应用与软件;2008年10期
9 国宏伟;梁合兰;刘燕驰;高学东;;不规则时间序列距离的度量[J];计算机工程与应用;2008年35期
10 毛红保;冯卉;杨建华;刘亚军;;面向相似性查询的时间序列距离度量方法述评[J];计算机工程与设计;2010年19期
11 李太勇;吴江;朱波;方冰;;一种基于距离度量的自适应粒子群优化算法[J];计算机科学;2010年10期
12 张鹰;尹德春;李朝荣;李寿林;;网站保护中后台数据库入侵检测技术的研究[J];西华师范大学学报(自然科学版);2006年04期
13 梁吉业;白亮;曹付元;;基于新的距离度量的K-Modes聚类算法[J];计算机研究与发展;2010年10期
14 周敏;;基于距离的k最优粒子群优化算法[J];计算机工程与应用;2011年15期
15 刘文军;游兴中;;一种改进的凝聚层次聚类法[J];吉首大学学报(自然科学版);2011年04期
16 谢勤岚;;结合类可分性和遗传算法的核ICA特征选择[J];武汉理工大学学报(交通科学与工程版);2009年04期
17 孙冰;封举富;;度量滤波器:距离度量的滤波视角[J];中国科学:信息科学;2010年04期
18 赵晶;林鸿飞;王凡;;矢量地图水印的数据质量评价研究[J];中国图象图形学报;2010年07期
19 王赛芳;戴芳;梁波;张晓宇;;一种基于路径的划分聚类算法[J];信息与控制;2011年01期
20 苏志伟;黄昌琴;潘伟;;脑机器人障碍回避(英文)[J];心智与计算;2010年01期
中国重要会议论文全文数据库 前10条
1 刘宝生;闫莉萍;周东华;;图像匹配中相似性度量[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
2 张旭光;张云;董期林;;基于随机采样的协方差跟踪[A];图像图形技术研究与应用(2010)[C];2010年
3 谷千军;;信息流的度量分析[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 肖瑶;张为群;;一种基于DWFC的面向对象类内聚度量方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 邓敏;李志林;陈晓勇;;GIS空间目标的广义Hausdorff距离模型[A];中国测绘学会第八次全国会员代表大会暨2005年综合性学术年会论文集[C];2005年
6 黄高扬;贾珈;蔡莲红;;基于LPC谱的汉语韵母感知度量的研究[A];第九届中国语音学学术会议论文集[C];2010年
7 邓中亮;;雕刻型面的特征抽取机制与自动辩识[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
8 刘小峰;陈传波;刘云生;;移动对象全局K最接近邻居查询研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
9 刘小峰;陈传波;刘云生;;移动对象范围最接近邻居查询处理算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 丘衍航;杨群生;战荫伟;;基于GMEM聚类的EMD图象检索[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 李超群;名词性属性距离度量问题及其应用研究[D];中国地质大学;2012年
2 江南;自适应距离度量及稳健视频运动分析[D];华中科技大学;2011年
3 时永刚;广义距离度量和多模态图像配准技术研究[D];中国科学院研究生院(电子学研究所);2004年
4 杜文吉;模糊控制系统中的若干关键问题研究[D];西安电子科技大学;1999年
5 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
6 张勇;时间序列模式匹配技术研究[D];华中科技大学;2012年
7 郑小琪;生物分子数据的距离度量及其应用[D];大连理工大学;2009年
8 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
9 刘迎照;生物序列分析中的非比对方法及其应用[D];大连理工大学;2008年
10 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
中国硕士学位论文全文数据库 前10条
1 林亚明;基于EMD非相似距离度量的车型自动识别的研究及应用[D];福州大学;2005年
2 孙杰;基于角度和距离度量的局部保留投影方法研究[D];南京邮电大学;2012年
3 赵旻;基于KL算法的人脸识别理论的研究及系统实现[D];四川大学;2004年
4 邹小梅;基于错误解释的故障定位方法研究[D];华中师范大学;2009年
5 郭非非;“附生性”概念辨析[D];华中科技大学;2010年
6 景黎;空间区域拓扑、度量关系结合方法的研究[D];吉林大学;2007年
7 许浒;时空数据库查询处理及优化的研究与实现[D];华中科技大学;2006年
8 孙义阳;模糊集、Vague集的模糊熵和相似度量及其在模式识别中的应用[D];西北大学;2008年
9 闫仕宇;一类新度量下的Delaunay三角形网格的生成及应用[D];湘潭大学;2008年
10 段西强;基于数据挖掘的数据库入侵检测研究[D];江苏大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978