收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于自动机的XML数据过滤研究

沈洁  
【摘要】:随着Internet在金融证券管理、Web日志等领域的广泛应用,对半结构化数据的管理不断提出新的需求,半结构化的数据及其相关技术已经成为当前数据处理领域的研究热点之一。XML是半结构化数据的一种特殊表现形式,是一种全新的Web数据表示和交互标准,越来越多的Web数据通过XML格式进行存储和交互。而对于任何数据库,过滤都是其中重要的一环,因此对于XML数据的过滤研究具有非常重要的意义。本文结合自动机的相关理论和方法,对XML在本地以及网络上的过滤算法进行深入地研究。 本文首先研究XML过滤过程中的缓存失效问题,提出用一种两阶段评估方法来对XML过滤过程中的缓存失效进行量化分析。通过分析基于DFA的XML数据过滤过程,来评估过滤过程中强制失效和容量失效发生的数量。首先在一个过滤周期内通过构造标签树来统计出查询过滤过程中强制性失效的数量。其次在第i个过滤周期,考虑对之前i-1个周期过滤结果的重用,通过对工作集的交、并、差运算,估算出了第i个过滤查询周期的强制性缓存失效和容量失效的数量。最后通过实验验证评估的结果具有较高的精确度。 其次,在LazyDFA过滤系统的基础上,引入频繁访问区的概念,提出一种DFA-FA过滤机制。通过减少存取过程中的缓存失效,提高过滤的性能。首先给出频繁访问区的概念,再给频繁访问区的大小设置一个限制,然后考虑频繁访问区中节点在存取频率上最佳阈值的选择。最后实验证明优化后的过滤机制在性能上有明显的改善。 再次,针对P2P网络节点上的XML数据流,提出分布式NFA的过滤机制,解决peer节点之间交互的XPath过滤。首先将NFA加入到Chord环中,然后在本地YFilter系统中递增地构造分布式的NFA。然后提出两种方法执行分布式NFA:迭代方式和递归方式,并通过实验验证递归方式具有更好的执行性能。最后的实验证明,针对各种不同的负载情况,当改变查询数量及网络大小时,分布式NFA过滤机制都具有很好的过滤性能,并且对于存储负载和过滤负载都可以得到较好的负载均衡性。 最后在XPush自动机的基础上提出了一种集成XPush过滤机制,解决XML数据流查询过程中的动态更新问题。首先定义了集成XPush自动机中的数据表示,集成状态表和集成状态转移表,以及集成状态表的集成键和每个子XPush自动机的键值。然后对集成XPush自动机进行动态地更新,更新的过程分为两类,一类是分离进程,就是在一个集成XPush自动机上分离一个子XPush自动机,这就相当于过滤要求的删减,另一类是增加新的过滤进程,用来处理增加了新的子XPush自动机后的集成XPush自动机。并通过实验与原来的XPush自动机进行比较,证明集成XPush方法受过滤要求改变的影响远远小于XPush自动机。 本文的工作围绕利用自动机对XML数据进行过滤的改进而展开,先是利用缓存访问定位技术对本地XML进行过滤优化,然后研究结合分布式哈希表P2P网络节点中的XML数据的过滤,以及动态条件下的优化过滤,并通过与原有方法的实验对比证明改进后方法的有用性和有效性。其中涉及到P2P网络的过滤机制和动态过滤的研究对于未来的研究提供了良好的理论基础和思路。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马新新;陈伟;秦志光;;蜜罐系统模型的有限自动机[J];计算机科学;2005年11期
2 杨善茜;黄汉明;蒋正锋;李锐;;基于HTK的语音识别网络优化算法[J];计算机工程;2010年14期
3 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
4 李爽;;汉字输入数学模型的研究[J];中国科教创新导刊;2007年13期
5 王军;甘丹;王继军;;利用自动机研究描述逻辑的推理问题[J];计算机与现代化;2008年06期
6 丁雨;苑冬玲;;基于NFA的XML数据流查询算法设计与实现[J];科技资讯;2010年19期
7 刘光武;许进;潘林强;;黑白数字图像的有穷状态自动机表示方法[J];武汉理工大学学报(交通科学与工程版);2006年05期
8 邱道文;;基于量子逻辑的自动机理论的一些注记[J];中国科学(E辑:信息科学);2007年06期
9 陈春华;解方文;岳增刚;;基于时态逻辑的UML交互模型检测研究[J];电脑知识与技术;2008年34期
10 杨义先;;置乱器的实用研究[J];北京邮电大学学报;1990年02期
11 谢晓尧;;面向对象的工程数据库的形式化理论[J];机械与电子;1993年04期
12 孙萍;游泰杰;;半群语言与正规语言[J];贵州师范大学学报(自然科学版);2006年03期
13 郭瑞枫;;一个分布式信息检索系统模型[J];南京大学学报(自然科学版);1982年01期
14 任晓明;潘沁;;冯·诺依曼的计算机科学哲学思想[J];科学技术哲学研究;2011年04期
15 吴立军;苏开乐;陈清亮;杨志华;;多主体系统时态认知规范的“On the Fly”模型检测算法研究[J];计算机研究与发展;2006年08期
16 刘春霞;;确定的与非确定的公式时钟自动机的等价性[J];科技信息(科学教研);2008年17期
17 张惠民;用自动机理论设计步进电机电源[J];天津职业技术师范学院学报;1991年02期
18 李九英;张来顺;;基于自动机理论的XML查询重写研究[J];计算机应用与软件;2008年06期
19 何菊;陆明洲;;高等中医药院校编译原理课程教学改革[J];福建电脑;2008年09期
20 闵帆;;结构化程序设计思想在形式语言与自动机理论中的体现[J];计算机教育;2008年04期
中国重要会议论文全文数据库 前10条
1 苏仕云;郭瑞强;乐嘉锦;;有穷状态自动机在商业逻辑建模中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 林晨;李祖枢;;一种用于离散事件动态系统的智能控制结构及其实现[A];1996中国控制与决策学术年会论文集[C];1996年
3 龚志伟;刘任任;;关于部分四值逻辑中3元正则可离关系的分类[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 陈军华;赵凛;张星臣;;基于元胞自动机理论的交通流模拟研究进展[A];第10届计算机模拟与信息技术会议论文集[C];2005年
5 马海涛;郝忠孝;;一种检验Active XML文档树模式查询可满足性算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李千目;赵学龙;张宏;刘凤玉;;一种基于自愈策略的网络故障诊断系统[A];第三届全国信息获取与处理学术会议论文集[C];2005年
7 胡斌;吴婷;;基于元胞自动机的企业员工行为——激励传播效应模拟[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
8 燕飞;唐涛;;实时并发系统的形式化建模方法研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
9 王兰野;洪晓光;;使用DTD优化XML数据流上的XPath查询[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 刘松涛;杨绍清;周晓东;;元胞自动机及其在图像处理中的应用[A];2006年全国光电技术学术交流会会议文集(D 光电信息处理技术专题)[C];2006年
中国博士学位论文全文数据库 前10条
1 李丹美;模糊离散事件自动机组合的控制与切换[D];东华大学;2009年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 韩召伟;几类基于量子逻辑的自动机的代数及逻辑刻画[D];陕西师范大学;2011年
4 田径;关于自动机代数理论的研究[D];西北大学;2012年
5 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
6 刘光武;自动机状态复杂度及模型研究[D];华中科技大学;2007年
7 董昊;知识化制造环境下的任务分配与动态控制策略[D];东南大学;2005年
8 陈文宇;形式语言与自动机理论若干问题研究[D];电子科技大学;2009年
9 李平;伪半环及其在自动机理论中的应用[D];陕西师范大学;2010年
10 陈乙雄;基于有穷自动机的网络学习活动智能导航服务模型与算法研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 李煜;有限模糊树自动机的代数性质与树语言[D];广西师范大学;2011年
2 陈晴雷;量子自动机的乘积研究[D];四川师范大学;2012年
3 黄亮;高速自动机技术在中口径76mm火炮中应用的仿真分析[D];南京理工大学;2010年
4 张柯柯;回溯自动机的文法、机器模型及其在解析器中的应用[D];西安电子科技大学;2014年
5 杨静;几类自动机的性质探讨[D];四川师范大学;2010年
6 张瑞民;格值树自动机的最小化[D];陕西师范大学;2011年
7 黄晓凤;两类模糊有限树自动机的性质及其正则表达[D];四川师范大学;2013年
8 林敏;两种类型的自动机的乘积[D];四川师范大学;2014年
9 简林;基于接口自动机的服务组合验证研究[D];中南大学;2011年
10 欧晓华;两类自动机的乘积研究[D];电子科技大学;2010年
中国重要报纸全文数据库 前1条
1 张香平;掌握“信息时代的钥匙”[N];人民日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978