收藏本站
《北京工业大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

遗传归纳逻辑程序设计技术研究

杨新武  
【摘要】: 数据挖掘技术是当前计算机技术的研究热点之一。当前的数据挖掘研究主要在命题逻辑的框架内,存在描述能力弱和不便于利用背景知识的局限性。而且,这些方法多采用了单表假设,算法寻找单表数据中的模式。但数据通常保存在关系数据库的多张表中,若想利用现有的数据挖掘算法,存在将数据转换到单表中的难题。 基于一阶逻辑的一阶规则挖掘技术常被称作归纳逻辑程序设计(ILP)。一阶逻辑为ILP提供了一致的和非常有表达力的表示手段:背景知识、例子以及挖掘到的知识都可表示为子句语言的公式,所以在挖掘过程中可非常自然地利用背景知识。另外得到的知识表示为相关谓词构成的一阶规则,比命题规则具有更强的表达能力,使知识的内涵更加丰富并易于人们理解。因此,ILP可克服传统命题规则挖掘方法的两个主要限制:描述能力的限制与背景知识利用的限制。此外,由于关系数据库的形式描述—“关系代数”与ILP的子句逻辑有着内在的关联性,ILP技术可被直接用于涉及关系数据库中多个关系(表)的数据挖掘任务。 一阶规则挖掘可看作是对一阶规则空间的搜索。由于一阶规则空间的庞大和复杂性,为了实现有效的搜索,绝大多数一阶规则挖掘系统采用了贪婪的搜索策略,并需要对具体问题给出极其严格的语言偏向(即挖掘过程中待测规则构成的特征描述)来缩小搜索的范围或作为启发知识来指导搜索过程。贪婪的搜索策略可能使算法陷于局部优解,语言偏向的添加也只对与其相适的目标规则的搜索有良好的效果,不适于数据挖掘这种目标规则构成先验知识少的任务环境。 遗传算法是模拟生物进化机制而发展起来的随机化搜索算法。算法根据概率的变迁规则来指导搜索方向,利用演化过程中获得和积累的有关搜索空间的信息自行组织搜索,并自适应地控制搜索过程,基本上不用搜索空间的知识或其它的辅助信息,对问题本身没有过多的要求,适于数据挖掘的任务环境。遗传算法采用群体搜索策略,具有较好的全局搜索性能,减少了陷于局部优解的风险。因此,采用遗传算法作为ILP的搜索策略,可从整体上提高一阶规则挖掘方法的鲁棒性和适应性,解决一阶规则获取的性能瓶颈问题。 本论文主要开展了遗传归纳逻辑程序设计技术的初步研究。用遗传算法挖掘一阶规则依赖于两个因素:遗传空间的“地貌”和在遗传空间中的“航行”。两者分别反映了算法的静态和动态特性。遗传空间的“地貌”体现了算法的静态特性,它与以下三者相关:(1)把一阶规则表示成遗传算子可操作形式的编码。依据给定的编码,所有待搜索的一阶规则被映射为遗传空间相应的点。(2)评判一阶规则优劣的适应度函数,一阶规则适应度的相应变化形成了遗传空间高低起伏的地貌特征;(3)由交叉和变异算子决定的规则间的邻接关系,描述了遗传空间地貌的沟壑或桥梁。在遗传空间的“航行”则体现了算法的动态特性,是种群在选择,交叉以及变异算子的作用下逐渐逼近最优解的过程。本论文重点研究了遗传归纳逻辑程序设计技术中的一阶规则编码,遗传算子的设计,选择策略及算法结构 北京工业大学工学博士学位论文 一 等关键技术。此外,我们还对自己提出的GILP算法运行中的个体编码生长现象进行了研 究,并在对一阶规则挖掘中的等价类问题的研究基础上,提出了基于信息赢取的适应度函 数。最后,基于研究成果,开发了GILP系统并进行了挖掘工作。主要研究成果和创新点 如下: 门)在认识到一阶规则挖掘实质上是目标谓词和背景知识谓词构成的各种原子的组 合优化问题基础上,我们依据occam’s razor原理,提出了符合最小字符集编码原则的一 阶规则位串编码。该编码仅需用户在付出的计算代价和获取知识复杂度(规则中可能出现 的相异变量的序号上界)之间作权衡,不需给出描述了待测规则构成特征的语言偏向,适 于数据挖掘这种目标规则构成先验知识少的任务环境。为我们提出的位串编码设计了符合 一阶规则语法约束的遗传算子。提出了基于覆盖删除策略的遗传归纳逻辑程序设计算法 GILP。 门)通过对变长位串编码作模式分析,初步解释了GILP运行过程中的个体编码生长 现象。并发现,若简单地从初始种群开始,在适应度中添加长度惩罚项解决生长问题时, 种群会出现退化现象。为此,提出了基于演化周期的惩罚策略,既避兔了种群退化,又有 效抑止了个体编码的生长。 (3)用遗传算法有效地搜索一阶规则的关键在于如何准确地评价一阶规则,即规则 的适应度能有效地量化规则的优劣,指导算法逼近最忧解。在ILP技术通常采用的基于规 则覆盖正负例数目的评价标准中,存在一阶规则的等价类问题。等价类问题使GILP的遗 传搜索过程盲目地倾向于长规则,将严重地降低算法的搜索效率和规则的可读性。我们在 绑定概念的基础上,依据信息理论,提出了基于信息赢取的适应度函数。分析和对比实验 表明,新的适应度函数可区分一阶等价规则的优劣,更好地指导算法的搜索方向。 (4)我们实验了选择策略对GILP收敛性能的影响,提出了采用竞赛规模动态改变的 锦标赛选择策略,来解决遗传?
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期
11 韩双霞;李萍;;数据挖掘:构筑企业竞争优势[J];金卡工程;2002年08期
12 林阳;数据挖掘在教育信息化中的潜在价值[J];现代教育技术;2002年01期
13 蒋良孝,蔡之华;一种新兴的数据挖掘方法:神经规则法[J];计算机工程与应用;2003年15期
14 朱世武 ,崔嵬 ,张尧庭 ,谢邦昌;数据挖掘运用的理论与技术[J];统计研究;2003年08期
15 王晓涓,祁慧敏;数据挖掘漫谈[J];天中学刊;2003年02期
16 陈伟志,魏振军,王春迎;多元统计分析在数据挖掘中的作用[J];信息工程大学学报;2003年04期
17 赵涛;;数据挖掘在金融行业的运用[J];金融电子化;2004年03期
18 韩江;数据挖掘——极具发展潜力的新领域[J];苏州市职业大学学报;2004年01期
19 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
20 ;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978