收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于三支决策的项集增量挖掘算法的研究与应用

张智恒  
【摘要】:在电子商务中,频繁项集挖掘用于为商家提供具有更多购买次数/频率的商品组合,而高实用性项集挖掘用于为商家提供具有更大利润的商品组合。近年来,学者们不仅针对频繁项集提出了如Apriori和FUP等经典算法,还提出了如Two-Phase和FUP-HUI等经典算法来挖掘高实用性项集。然而在动态的大数据环境下,现有的增量算法难以高效地、实时地完成项集的挖掘工作。 本文提出了一种统一的基于三支决策的项集增量挖掘技术框架来解决这个问题。我们针对频繁项集和高实用性项集的特点,重新定义了三支决策中的正域阈值和负域阈值,并且为这两种项集实现了相应的增量更新算法。 首先,框架由3个算法组成,即在线更新,离线挖掘和同步机制。 第一,在线更新算法结合三支决策,完成项集的增量更新。它能够实时地向商家提供最新的项集结果。它将整个项集的集合划分成3个区域:正域、负域和边界域。在增量更新时,正域中的项集被直接接受并输出,负域中的项集被直接拒绝并抛弃;而边界域中的项集则需要进一步的检查更新。然而,随着增量的长期积累,且由于数据的随机性,部分被抛弃的项集会成为频繁项集,由此导致项集结果产生误差。 第二,离线挖掘算法是在当前的整个数据集上完成项集挖掘,并将其划分进正域和边界域中,而位于负域中的项集不会被计算,也不存储。离线挖掘算法是灵活的、可选的,它为用户提供了现有的多种现有优秀算法作为选项。由离线挖掘得到的这些项集是准确无误的,但是,由于数据是海量的,离线挖掘算法只能提供延时的项集结果。 第三,同步机制将在线更新与离线挖掘结合起来,能够得到既足够准确又及时更新的项集结果。同步机制算法参照各种参数调控在线更新与离线挖掘的分工合作。若新增的数据量在特定范围n以内,则启用在线更新,离线挖掘待命;若增量数据超过了n,则启用离线挖掘,且继续执行在线更新,当离线挖掘获得结果时,就自动替换在线更新的结果。在线更新产生的误差在同步机制中得到合理控制:边界域越大,则误差越小 其次,本文提出了参数学习方法来控制在线更新产生的误差。该方法针对频繁项集建立了概率模型,得出查询函数,从理论上对误差值进行预估,并在3个公开数据集上完成了有效性验证,能够将更新误差控制在0.01%以内。算法性能比批量挖掘算法快3个数量级,比增量挖掘算法快2个数量级。针对高实用性项集,我们直接采取实验学习的方法获取相应的参数设置的经验值,得出查询表,算法实验在人工数据集上进行。同样地,比已有算法快2到3个数量级,误差控制在0.01%以内。 最后,本文将技术框架扩展为面向电子商务商家的辅助决策的快速原型系统。该原型系统不仅能够向电子商务商家提供项集的辅助决策信息,还提供了商品打折策略和上下架策略。它们共同组成了一个更加实用的、全面的决策知识体系。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄琪;李丹;汪洋;张钦宇;;一种优化LDPC码环分布的改进算法[J];通信技术;2010年05期
2 徐艳;董涛;;一种防火墙规则冲突快速检测算法[J];计算机技术 与发展;2013年09期
3 张磊;沈夏炯;韩道军;安广伟;;基于同义概念的概念格纵向合并算法[J];计算机工程与应用;2007年02期
4 谢廷婷;;频繁集挖掘算法研究[J];计算机与现代化;2007年03期
5 王晓东;解非线性0-1规划的一个算法及其在结构优化中的应用[J];数值计算与计算机应用;1988年01期
6 党金胜;;基于EMD和破环的ACE改进算法[J];网络财富;2010年06期
7 杜庆肖;宋晓勤;赵丽屏;刘颖;张恒龙;;一种用于LT码的改进IPEG算法研究[J];信息通信;2012年04期
8 张晓;;基于密度聚类算法的异常检测[J];伊犁师范学院学报(自然科学版);2010年04期
9 苏巴提;张晓;;基于改进的K-means算法的异常检测[J];软件导刊;2011年11期
10 王志平;李烈彪;吴灵慧;;改进的ID3算法在学习者个性挖掘中的应用研究[J];重庆科技学院学报(自然科学版);2007年03期
11 陈雪飞;;一种基于决策树的快速关联规则挖掘算法[J];计算机科学;2008年07期
12 汪辉;侯传宇;;决策树相关算法研究[J];电脑知识与技术;2011年15期
13 胡新和;尹光辉;;一种改进的3GPP-LTE系统MIMO检测算法研究[J];电信工程技术与标准化;2012年05期
14 刘国繁;陈辉;陈志良;;基于PCPEG算法的准循环LDPC码构造[J];计算机工程;2013年10期
15 苗茹;沈夏炯;;概念格经典算法对比[J];福建电脑;2007年03期
16 乔舒杰;;蜂群算法[J];计算机光盘软件与应用;2014年10期
17 李云,刘宗田,陈崚,沈夏炯,徐晓华;基于属性的概念格渐进式生成算法[J];小型微型计算机系统;2004年10期
18 詹芹;张幼明;;一种改进的动态遗传Apriori挖掘算法[J];计算机应用研究;2010年08期
19 任志刚;冯祖仁;柯良军;张兆军;;基于聚类分析的增强型蚁群算法[J];控制与决策;2010年08期
20 李思佳;毛玉泉;曹祥玉;裴鑫;尹忠海;;QC-LDPC码的普适Kronecker积-逐步边增加算法[J];吉林大学学报(工学版);2013年01期
中国重要会议论文全文数据库 前2条
1 潘志明;郑骏;钱卫宁;周傲英;;构造XML相似相关结构库的一种有效方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 林景亮;董槐林;姜青山;吴书;;一种基于新增阈值的频繁模式挖掘算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前4条
1 唐益明;(1,2,2)型异蕴涵泛三I算法及其应用研究[D];合肥工业大学;2011年
2 牛云云;求解计算困难问题的膜计算模型与算法研究[D];华中科技大学;2012年
3 李冬冬;基因组序列标注的算法与理论研究[D];国防科学技术大学;2004年
4 周琨;航空公司航班运行调度模型与算法研究[D];南京航空航天大学;2012年
中国硕士学位论文全文数据库 前10条
1 白鹭;基于自适应人工免疫进化的网格聚类算法研究[D];沈阳大学;2010年
2 纪彤坤;概念格Chein算法的研究与改进[D];华南理工大学;2012年
3 钱伟强;一种基于改进粒子群和K均值结合的聚类算法[D];西安电子科技大学;2011年
4 张菲;蜂群混合算法[D];西安电子科技大学;2013年
5 陆丽娟;强跳跃显露模式挖掘算法及其应用[D];湖南大学;2011年
6 范效宁;求解最优化问题的类电磁机制算法研究[D];西安电子科技大学;2010年
7 戴升祥;蚁群算法在Web挖掘中的应用研究[D];广西大学;2006年
8 黄宏强;非结构网格自动分区算法研究[D];南京航空航天大学;2004年
9 刘扬;蚁群算法在网络路由上的应用[D];吉林大学;2007年
10 林景亮;关联规则挖掘算法及其应用研究[D];厦门大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978