基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究
【摘要】:
数据挖掘的任务是发现大量数据中尚未被发现的知识,特别是一些隐藏在大量数据中的关系和趋势。数据挖掘技术的这一特点和功能正是反洗钱监测分析系统所需求的。数据挖掘中的多种算法,在反洗钱领域都有着良好的应用前景。利用数据挖掘技术进行反洗钱数据监测和分析,是国内外研究的一个热点。因此,研究适合金融交易数据特点的关键的数据挖掘算法,并运用到中国反洗钱系统建设中,具有十分重要的理论研究和实际应用价值。
粗糙集理论是处理模糊和不确定知识的一种数学工具,已在人工智能与知识发现,模式识别与分类,故障检测等方面得到了较好应用。给出了基于粗糙集的挖掘算法生成决策模型,用于判定交易是否可疑。该算法首先实现属性约简,形成分辨矩阵,然后从中发现规则,这一算法适用于决策属性和分类属性依赖关系不明确、给定数据不完备的情况。
考虑到高维空间中数据分布较稀疏的特点,常用聚类算法多用数据之间的距离尺度来衡量数据间的相似度,然后聚类,不能产生很好的聚类效果。给出基于超图的聚类算法,把一个求解高维空间聚类问题转换为一个超图分隔寻优问题,高维空间的关系转化成超图,用超边的权重来描述空间点间的关系。对超图的分割实际上就是聚类的过程,将权重大的超边中包含的数据点尽量放在一个类中,同时使被切割的超边权重之和最小。不需要对数据集事先进行降维,即可完成聚类过程。能有效祛除噪声点,在高维空间获得较好的聚类结果。
针对传统聚类算法难以解释其聚类结果的问题,通过语义中心对聚类结果进行概念描述,使语义中心在最大限度上反映类簇的特征。由于分类型数据在金融数据中占着较大的比重,概念聚类相比传统基于数值型数据的聚类能够更好地适应分类数据。给出的基于解释规则的增量概念聚类算法能够给出聚类结果的大致涵义,并能够通过概念与属性之间的确信因子和包容因子的计算生成规则,在更深层度上挖掘隐含信息。
在上述研究基础上,根据我国具体的反洗钱的具体情况,借鉴美国、加拿大、澳大利亚等国反洗钱系统建设的成果和经验,研究适合中国国情的反洗钱信息系统。在分析了反洗钱系统的建设背景、已有的信息化基础的基础上,确定了系统的建设目标,设计了反洗钱系统的总体框架,包括信息辅助核查平台、检测分析平台、反洗钱数据挖掘平台三大部分。
基于上述理论和研究成果,结合数据集成与交换、数据仓库和OLAP技术,开发和实现了一个反洗钱信息系统,已成功应用于国家外汇管理局反洗钱实际应用,并在全国推广。该系统是我国研制的第一个专业化、智能型的反洗钱信息管理系统,实现并加强对反洗钱数据的分析和处理,提高反洗钱工作的效率和质量,取得满意的效果。该项目获中国人民银行2006年银行科技发展奖二等奖。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.13
|
|
|
|
1 |
中国人民银行行长 周小川;[N];金融时报;2004年 |
|