收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

异质过程数据集成与修复

朱笑尘  
【摘要】:随着企业中信息系统的大量使用,异质的过程数据被源源不断地产生出来。根据调研,这些异质事件日志的数据质量存在着严重的问题,主要分为两类,一是存在着冗余事件,即拥有不同名称的事件实际上表示同样的商业活动;二是存在着缺失事件,即日志中记录的事件轨迹与对事件执行进行约束的过程模型之间存在不一致的情况。如果不解决这两类数据质量问题,以事件日志为基础的过程分析都无法得到高质量的结果。为了使信息系统运转在正常的生命周期之上,就有必要对冗余事件进行匹配,即找到有潜在对应关系的事件,并对缺失事件进行恢复,即找到满足过程模型约束,又与原事件轨迹差别最小的执行序列。但是,由于事件日志具有极强的异质性,无论是事件的匹配还是恢复都具有很多难点及挑战。本文研究了在可获取并利用的外部信息逐步增加的情况下,逐步提升异质过程数据的数据质量的方法。主要内容及创新点如下:?当没有任何可以利用的外部信息时,本文提出了一种异质事件相似度的计算方法。通过将日志转化为图结构并添加虚拟事件解决了事件名称透明以及错位匹配的难点。同时,基于迭代的相似度计算公式及其估算方法能够在准确度与计算效率之间进行权衡。而异质过程数据中可能存在的复杂事件同样能通过启发式的方法发现。?当事件日志中含有特殊的事件模式时,本文提出了一种利用事件模式相似度的事件匹配方法。该方法利用标准距离评估事件匹配的优劣。与现有工作不同的是,本方法考虑了复杂事件模式的相似度以增加标准距离的区分度。匹配算法使用A*搜索快速找到最优事件匹配,并且支持pay-as-you-go形式的增量式计算。?当事件日志含有对应的过程模型时,本文通过一种逆向回溯的方法找出事件轨迹中可能的缺失事件。该方法在处理并行结构上的恢复时回避了现有方法中对并行事件不同执行顺序的非必要枚举。该方法还利用索引,分支定界技术以及局部最优特性对无法产生最优解的选择分支进行剪枝,加快算法的效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 韩蕊;;大数据呼唤数据集成新思维[J];互联网周刊;2013年22期
2 陈小慧;企业级工艺数据集成管理技术方案[J];机电信息;2001年10期
3 殷晓岚,付远彬,李京;企业数据集成模式的研究[J];计算机工程与应用;2002年12期
4 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
5 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
6 唐桂芬;廖巍;陈荦;景宁;;面向地理数据服务的空间数据集成关键技术研究[J];计算机科学;2007年09期
7 周冰;;调查显示:数据集成获中国企业认同[J];信息化纵横;2008年08期
8 董峰;李晋宏;;企业数据集成综述[J];中国金属通报;2008年42期
9 韩明;;油田开发数据综合集成的研究[J];数字石油和化工;2009年07期
10 金芳;;基于虚拟化技术的高校数据集成[J];价值工程;2012年04期
11 王蔚;;基于本体的图书馆数据集成研究[J];情报探索;2012年02期
12 王拓,王伟;CIMS的数据集成[J];计算机研究与发展;1994年01期
13 王桂玲;张峰;韩燕波;;一种基于数据服务超链进行情景数据集成的方法[J];电信科学;2014年02期
14 陈小慧;企业级工艺数据集成管理技术方案[J];现代制造工程;2001年10期
15 钱钢,董逸生;一种实现数据集成中查询重写的方法[J];东南大学学报(自然科学版);2004年04期
16 陈跃国;王京春;;数据集成综述[J];计算机科学;2004年05期
17 章建国,施敏;利用高分子结构对数据集成的研究[J];石家庄职业技术学院学报;2005年02期
18 胥永康,吴志杰,席传裕,岳筱玲;基于数据拆分的数据集成技术研究[J];吉林大学学报(信息科学版);2005年S2期
19 郭金兰;龙怡;盛宇;吴英;;电子政务系统的数据集成研究[J];情报理论与实践;2007年04期
20 许国艳;王志坚;;基于主动服务的领域数据集成研究[J];微电子学与计算机;2008年09期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
3 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
4 李宗华;肖道纲;彭明军;;数字武汉空间基础数据集成建库及应用[A];坚持科学发展观 推进自主创新 促进国家创新型城市建设——武汉市第二届学术年会论文集[C];2006年
5 乔慧捷;赵海军;纪力强;;生物多样性数据集成模式初探[A];第五届全国生物多样性保护与持续利用研讨会论文摘要集[C];2002年
6 张寿明;张云生;向风红;缪尔康;;异构设备数据集成实践[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
7 张德钦;饶克锋;顾进广;;基于语义的工业联合体数据集成机制[A];全国冶金自动化信息网2014年会论文集[C];2014年
8 刘靖;刘江宁;;数据集成体系架构及其实现框架研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 李宗华;彭明军;;规划国土资源管理空间数据集成应用与运行机制探讨[A];2004城市规划年会论文集(下)[C];2004年
10 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张燕;Web数据集成中实体演化与关联问题研究[D];山东大学;2015年
2 鄂新华;面向服务的数据集成若干关键技术研究[D];北京邮电大学;2015年
3 朱笑尘;异质过程数据集成与修复[D];清华大学;2015年
4 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
5 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 魏红雨;基于4G地学空间数据集成关键技术研究[D];吉林大学;2014年
8 曹顺良;生物学数据集成若干关键问题研究[D];复旦大学;2005年
9 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
10 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
中国硕士学位论文全文数据库 前10条
1 翟妍伟;基于联邦的异构数据集成与交换系统研究与实现[D];西南交通大学;2015年
2 贾存鑫;链接数据技术在生物医学领域的应用技术研究[D];南京大学;2015年
3 姜玉茹;变电站数据集成与智能化应用研究[D];山东大学;2015年
4 申亚鹏;基于用户反馈的多源非结构化数据集成研究[D];浙江大学;2015年
5 李明;多元空间位置数据集成和服务方法研究[D];南京师范大学;2015年
6 李莉;保障信息系统数据集成管理工具的研究与实现[D];西安电子科技大学;2014年
7 徐喆昊;基于同义实体识别的Web数据集成[D];合肥工业大学;2015年
8 陈俊宁;海上试验场综合数据集成与管理系统设计与实现[D];中国海洋大学;2015年
9 孔青;面向Web数据集成的实体统一技术研究[D];山东大学;2010年
10 林高慧;面向服务的制药企业数据集成研究及应用[D];杭州电子科技大学;2013年
中国重要报纸全文数据库 前10条
1 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
2 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
3 于翔;谁碾碎了数据?[N];网络世界;2007年
4 本报记者 于翔;数据集成驱动企业实时创新[N];网络世界;2010年
5 本报记者 于翔;数据集成市场演绎“大国崛起”[N];网络世界;2010年
6 本报记者 于翔;数据集成开启云征程[N];网络世界;2010年
7 本报记者 于翔;数据集成进入快速成长期[N];网络世界;2010年
8 于翔 王翔;收复数据孤岛[N];网络世界;2007年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 吕梁市煤炭设计研究院 张萍;浅析数据集成环境下煤炭企业管理信息系统的构建[N];吕梁日报;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978