收藏本站
《东华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

高效用关联规则的挖掘

余光柱  
【摘要】: 关联规则的挖掘就是要发现大量数据中项集之间的关联或相关联系,它是数据挖掘研究的重要内容之一,在科学研究、电信网络、市场与风险管理、客户关系管理(CRM)、存货控制、军事等方面得到了广泛应用。但是,传统的关联规则以支持度衡量项集的重要性,会丢失一些支持度不高但效用很高、用户很可能感兴趣的规则。本文研究的高效用关联规则弥补了传统关联规则无法表达项集效用的不足,能反映用户偏好,更好地满足决策需求。本文主要研究高维大数据集中高效用关联规则的挖掘算法,弥补了现有的基于效用关联规则挖掘算法不能有效处理高维大数据集的不足。文中还结合效用与支持度的特点,提出了基于效用与支持度的关联规则挖掘问题及算法,可发现更多的用户感兴趣的规则。本文的主要研究有: (1)提出了一种新的在高维大数据集中挖掘高效用长项集的算法Inter-transaction。该算法基于行枚举,通过长事务的交集运算,直接得到长项集,不必从短项集逐步扩展得到长项集。在高维数据集中,长事务间共同项目很少,事务进行交集运算后变短的速度很快,因此这种行枚举方法具有很好的收敛性。Inter-transaction算法还把划分的方法引入到效用挖掘中,仅扫描数据库两次,能很好地适应高维大数据集环境。同时,由于采用了新的剪枝策略,避免了大量的候选集的生成、检验。 (2)提出了一种双向搜索高效用项集的混杂算法。现有的基于效用的关联规则挖掘算法采用类似Apriori的搜索策略,需要多次扫描数据库。当模式很长且数据集很大时,I/O负担太重。本文提出了一种从上下两个方向搜索高效用项集的混杂算法。该算法把发现所有高效用项集的任务分解为发现高效用长项集和高效用短项集两个相对容易解决的子问题,然后再选择不同的算法完成挖掘任务,避免了从短项集逐步扩展到长项集的冗长过程。 (3)提出了一种优化长事务交集运算的方法。我们提出的挖掘高效用长项集的算法同时以水平项目向量(Horizontal item-vector,简称HIV)和水平项目列表(Horizontal item-list,简称HIL)两种格式存储事务,并利用HIL格式数据提供的信息减少比特级逻辑“与”运算的次数,使逻辑“与”运算的次数等于HIL格式数据的长度,与比特向量(HIV格式)的长度无关。这种以空间换时间的方法解决了事务交集运算的性能随比特向量长度的增长而降低的问题,保证了在高维环境下的高性能。这种优化方法也可有效提高垂直挖掘算法挖掘频繁长模式的效率。 (4)提出了基于效用与支持度的关联规则挖掘问题。支持度与效用分别反映了项集的统计特性与语义特性,但人们对事物的兴趣度(或事物对人们的重要性)不但取决于事物本身的客观因素(如项集的支持度),与人们的主观因素(如人们对效用的不同理解)也密不可分。为克服单个度量(支持度或效用)的不足,本文提出了一种衡量项集重要性的新的度量:激励。项集的激励定义为支持度与效用的乘积,反映了用户获得某种效用的可能性或以某种可能性可获得多大的效用。在基于效用与支持度的关联规则挖掘中,高激励项集的挖掘避免了那些支持度不高但效用较高、或效用不高但支持度较高的项集的丢失,能发现更多的用户感兴趣的规则。 (5)论证了激励具有两个重要的数学性质:上界特性和事务权重激励向下封闭特性。根据这两个特性,设计了两种挖掘高效用频繁集的算法HM-Miner和HM-Two-Phase-Miner。两种算法都采用了类似Apriori的自下而上的搜索方式,适合于短模式数据集的挖掘。HM-Miner利用激励的上界特性剪枝,HM-Two-Phase-Miner则利用事务权重激励向下封闭特性剪枝。 (6)给出了一个高效用关联规则挖掘的应用系统,并用于购物篮分析中。该系统能同时输出关联规则(项集)的支持度、效用与激励,以比较基于支持度的关联规则与高效用关联规则挖掘的区别与联系。实际挖掘结果表明,高效用关联规则的挖掘能发现一些基于支持度关联规则无法发现的有趣模式,帮助商家找出高效用商品组合,促进高利润商品的销售。经过数据的转换处理,该系统还可应用于其他领域。例如,在网页分析中,把网页被访问的次数与浏览时间作为评价网页受欢迎程度的尺度,将网页挖掘问题变成高效用项集的挖掘问题。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前1条
1 朱宝湘;基于关联规则的结构化浏览技术及其应用[D];浙江理工大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 朱扬勇;;数据挖掘技术现状[J];中国传媒科技;2006年12期
2 程继华,郭建生,施鹏飞;元规则指导的知识发现方法研究[J];计算机工程与应用;1999年10期
3 张智军,方颖,许云涛;基于Apriori算法的水平加权关联规则挖掘[J];计算机工程与应用;2003年14期
4 余光柱;李克清;易先军;邵世煌;;一种基于划分的高效用长项集挖掘算法[J];计算机工程与应用;2007年29期
5 范明;牛常勇;朱琰;;一种挖掘多维关联规则的有效算法[J];计算机科学;2001年11期
6 张文献,陆建江;加权布尔型关联规则的研究[J];计算机工程;2003年09期
7 余光柱;王亮;易先军;邵世煌;;高维大数据集中频繁闭合模式的挖掘[J];计算机工程;2008年17期
8 朱玉全,孙志挥,季小俊;基于频繁模式树的关联规则增量式更新算法[J];计算机学报;2003年01期
9 刘旭辉;邵世煌;余光柱;;基于激励的关联规则的挖掘[J];计算机应用;2009年01期
10 化柏林;;数据挖掘与知识发现关系探析[J];情报理论与实践;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 徐永利;胡锡健;;四川农业总产值的预测与分析[J];安徽农学通报;2008年11期
2 张静,马云吉,张继生;超市消费行为分析中的增量挖掘系统原型[J];鞍山科技大学学报;2004年01期
3 刘毅;陈佳;吴润衡;;基于TARCH模型的VaR方法对上海股市的分析[J];北方工业大学学报;2007年01期
4 宋威;刘宇;李晋宏;;基于数据库垂直表示的高效用项集挖掘算法研究[J];北方工业大学学报;2011年01期
5 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
6 任志波;张强;;遗传优化模糊约束的频繁项集挖掘[J];北京理工大学学报;2006年10期
7 白昊;王崑声;胡昌振;张刚;经小川;;基于FP-Growth算法及补偿性入侵证据的攻击意图识别[J];北京理工大学学报;2010年08期
8 胡永平,祝接金;经济增长与投资关系的实证研究[J];商业研究;2004年13期
9 徐光林;;基于正态混合分布的上证指数波动性分析[J];商业研究;2006年15期
10 孙健;张春海;;基于VAR模型下我国保险业与经济增长的协整机制研究[J];保险研究;2010年09期
中国重要会议论文全文数据库 前10条
1 鲁峰华;马俊炯;刘强;;北京市居民消费与经济增长关系研究[A];科学发展:社会管理与社会和谐——2011学术前沿论丛(下)[C];2011年
2 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
3 邵璠;孙育河;梁岚珍;;基于时间序列法的风电场风速预测研究[A];2008中国电力系统保护与控制学术研讨会论文集[C];2008年
4 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
5 陈波;董鹏;邵勇;;基于Apriori算法及其改进算法综述[A];中国通信学会第五届学术年会论文集[C];2008年
6 王书平;李金山;李建平;陈建明;;战争的阶段性对国际石油价格的影响分析[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
7 王书平;赵茜;刘洪伟;;国际石油价格波动周期性分析[A];第八届中国管理科学学术年会论文集[C];2006年
8 洪丽颖;黄荣坦;;单变量乘积误差模型(MEM)的研究和实证[A];第十一届中国管理科学学术年会论文集[C];2009年
9 高晶;李建中;张兆功;;挖掘数值型数据流中的最大频繁模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 朱峰;朱玉全;孙蕾;宋余庆;;约束最大频繁项目集挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
4 张丹;我国地方政府支出与经济增长的关系研究[D];东北财经大学;2010年
5 关大宇;基于货币政策传导的金融条件指数构建及应用研究[D];东北财经大学;2010年
6 徐敏;新疆绿洲农业可持续发展融资机制研究[D];西北农林科技大学;2010年
7 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
8 姜梅华;非线性菲利普斯曲线与通货膨胀预期管理研究[D];吉林大学;2011年
9 马晓普;角色工程中的角色与约束生成方法研究[D];华中科技大学;2011年
10 陈崇;房地产价格波动及其宏观效应研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
3 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
4 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
5 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
6 丛强;基于模糊关联规则Web挖掘算法的研究[D];哈尔滨工程大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 周瑜;车队运行与维修管理的几个问题初探[D];长沙理工大学;2010年
9 高龙;天津港数据集成平台关键技术应用研究[D];大连海事大学;2010年
10 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李森;苏令波;宋守信;;人机系统中作业者心理负荷问题研究综述及展望[J];北京交通大学学报(社会科学版);2010年03期
2 胡克;产品交互设计介绍[J];广东轻工职业技术学院学报;2004年03期
3 戴奇燕;尤建洁;胡晔;邱晓君;刘兆军;王怀义;夏德深;;细节信息容量与MTF相关分析[J];航天返回与遥感;2005年04期
4 方学兵;韩春明;;信息界面中的图标符号设计原则[J];淮南师范学院学报;2010年02期
5 谢宗毅;;关联规则挖掘Apriori算法的研究与改进[J];杭州电子科技大学学报;2006年03期
6 王永恒;杨树强;贾焰;;海量文本数据库中的高效并行频繁项集挖掘方法[J];计算机工程与科学;2007年09期
7 马盈仓;挖掘关联规则中Apriori算法的改进[J];计算机应用与软件;2004年11期
8 刘华婷;郭仁祥;姜浩;;关联规则挖掘Apriori算法的研究与改进[J];计算机应用与软件;2009年01期
9 张琳娜;屈志毅;马晓军;刘莹;王元志;;隐曲面变换中纹理映射的研究[J];计算机应用与软件;2010年07期
10 吴常辉;左春荣;;关联规则挖掘Apriori算法的研究[J];价值工程;2010年02期
中国博士学位论文全文数据库 前1条
1 彭斌;基于关联规则的基因芯片数据挖掘与应用[D];第三军医大学;2008年
中国硕士学位论文全文数据库 前1条
1 闭英权;基于关联规则的股票时间序列趋势预测研究[D];广西大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 王云岚,李增智,屈科文;基于候选项集个数上阶的增量式关联规则更新算法[J];电子学报;2004年05期
2 陆建江,钱祖平,宋自林;正态云关联规则在预测中的应用[J];计算机研究与发展;2000年11期
3 佟强;周园春;吴开超;阎保平;;一种量化关联规则挖掘算法[J];计算机工程;2007年10期
4 谌志群;张国煊;;文本挖掘与中文文本挖掘模型研究[J];情报科学;2007年07期
5 张云秋;冷伏海;;基于非相关文献知识发现中的文本挖掘研究[J];情报理论与实践;2007年02期
6 陆建江,宋自林,钱祖平;挖掘语言值关联规则[J];软件学报;2001年04期
7 欧阳为民,郑诚,蔡庆生;数据库中加权关联规则的发现[J];软件学报;2001年04期
8 冯玉才,冯剑琳;关联规则的增量式更新算法[J];软件学报;1998年04期
9 曾庆花;王文国;;一种改进的模糊关联算法及其在IDS中的应用[J];计算机技术与发展;2007年07期
10 吴涛;;基于概念的不确定性关联规则挖掘[J];现代计算机;2007年05期
【相似文献】
中国期刊全文数据库 前10条
1 刘丽萍;;关联规则在银行业务中的应用[J];电脑学习;2010年03期
2 史原;鲁汉榕;罗菁;高婷;;基于规模约简和多支持度的关联规则挖掘[J];计算机工程与设计;2006年21期
3 沈良忠;;关联规则中Apriori算法的C#实现研究[J];电脑知识与技术;2009年13期
4 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
5 张春华;孙国春;;关联规则挖掘算法研究与实现[J];电脑编程技巧与维护;2009年S1期
6 初永玲;李绍春;;数据挖掘中关联规则挖掘算法的探讨与研究[J];科技信息(科学教研);2008年16期
7 陈晓云;胡运发;;一种基于兴趣度的大型数据库关联规则挖掘方法[J];模式识别与人工智能;2003年04期
8 庄雄雄;吕兰兰;高宋俤;齐京峰;;基于Trie的一种关联规则挖掘方法[J];心智与计算;2010年01期
9 吕真;李丹;;一种基于Apriori的关联规则挖掘算法的研究[J];电脑知识与技术;2011年06期
10 杨凯,张小平,马垣;基于属性分组的高效挖掘关联规则算法[J];计算机工程与应用;2005年31期
中国重要会议论文全文数据库 前10条
1 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
2 刘晓燕;单晓红;;遗传算法在关联规则挖掘中的应用[A];第六届中国青年运筹与管理学者大会论文集[C];2004年
3 刘东波;卢正鼎;;关联规则挖掘研究综述[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
4 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
5 贺庆;冯海旗;;基于关联规则挖掘的隐私保护方法研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 刘扬;曹惠玲;梁大敏;;关联规则挖掘在航空发动机QAR数据中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 李锦泽;叶晓俊;;关联规则挖掘算法研究现状[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 陈波;董鹏;邵勇;;基于Apriori算法及其改进算法综述[A];中国通信学会第五届学术年会论文集[C];2008年
9 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 方炜炜;杨炳儒;唐志刚;杨君;;基于客观兴趣度的关联规则优化算法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 张立明;数据挖掘之道[N];网络世界;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 余光柱;高效用关联规则的挖掘[D];东华大学;2008年
2 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
3 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
4 韩颖;新型农村合作医疗数据挖掘研究[D];山西医科大学;2009年
5 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
6 齐建东;基于数据挖掘的入侵检测方法及系统研究[D];中国农业大学;2003年
7 张晓辉;云理论和数据挖掘在水上安全分析中的应用[D];大连海事大学;2011年
8 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
9 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
10 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
中国硕士学位论文全文数据库 前10条
1 唐文志;蚁群算法在关联规则学习中的研究与应用[D];北京工业大学;2009年
2 赵海丰;关联规则挖掘及贝叶斯网表示研究[D];重庆大学;2007年
3 刘群;基于CORBA的分布式关联规则挖掘系统的研究和实现[D];山东科技大学;2005年
4 杜巍;基于综合度量的零售业关联规则的研究[D];吉林大学;2008年
5 高伟峰;数据挖掘中关联规则的研究及应用[D];武汉理工大学;2006年
6 范文建;基于Rough Set的关联规则研究[D];西南交通大学;2007年
7 李忠哗;最大频繁项目集挖掘算法研究[D];天津大学;2007年
8 王洪立;基于频繁模式树的关联规则算法研究[D];哈尔滨工程大学;2008年
9 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
10 邹丽;分布式系统下关联规则挖掘的研究与实现[D];大连交通大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026