收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于自动机的XML数据过滤研究

沈洁  
【摘要】:随着Internet在金融证券管理、Web日志等领域的广泛应用,对半结构化数据的管理不断提出新的需求,半结构化的数据及其相关技术已经成为当前数据处理领域的研究热点之一。XML是半结构化数据的一种特殊表现形式,是一种全新的Web数据表示和交互标准,越来越多的Web数据通过XML格式进行存储和交互。而对于任何数据库,过滤都是其中重要的一环,因此对于XML数据的过滤研究具有非常重要的意义。本文结合自动机的相关理论和方法,对XML在本地以及网络上的过滤算法进行深入地研究。 本文首先研究XML过滤过程中的缓存失效问题,提出用一种两阶段评估方法来对XML过滤过程中的缓存失效进行量化分析。通过分析基于DFA的XML数据过滤过程,来评估过滤过程中强制失效和容量失效发生的数量。首先在一个过滤周期内通过构造标签树来统计出查询过滤过程中强制性失效的数量。其次在第i个过滤周期,考虑对之前i-1个周期过滤结果的重用,通过对工作集的交、并、差运算,估算出了第i个过滤查询周期的强制性缓存失效和容量失效的数量。最后通过实验验证评估的结果具有较高的精确度。 其次,在LazyDFA过滤系统的基础上,引入频繁访问区的概念,提出一种DFA-FA过滤机制。通过减少存取过程中的缓存失效,提高过滤的性能。首先给出频繁访问区的概念,再给频繁访问区的大小设置一个限制,然后考虑频繁访问区中节点在存取频率上最佳阈值的选择。最后实验证明优化后的过滤机制在性能上有明显的改善。 再次,针对P2P网络节点上的XML数据流,提出分布式NFA的过滤机制,解决peer节点之间交互的XPath过滤。首先将NFA加入到Chord环中,然后在本地YFilter系统中递增地构造分布式的NFA。然后提出两种方法执行分布式NFA:迭代方式和递归方式,并通过实验验证递归方式具有更好的执行性能。最后的实验证明,针对各种不同的负载情况,当改变查询数量及网络大小时,分布式NFA过滤机制都具有很好的过滤性能,并且对于存储负载和过滤负载都可以得到较好的负载均衡性。 最后在XPush自动机的基础上提出了一种集成XPush过滤机制,解决XML数据流查询过程中的动态更新问题。首先定义了集成XPush自动机中的数据表示,集成状态表和集成状态转移表,以及集成状态表的集成键和每个子XPush自动机的键值。然后对集成XPush自动机进行动态地更新,更新的过程分为两类,一类是分离进程,就是在一个集成XPush自动机上分离一个子XPush自动机,这就相当于过滤要求的删减,另一类是增加新的过滤进程,用来处理增加了新的子XPush自动机后的集成XPush自动机。并通过实验与原来的XPush自动机进行比较,证明集成XPush方法受过滤要求改变的影响远远小于XPush自动机。 本文的工作围绕利用自动机对XML数据进行过滤的改进而展开,先是利用缓存访问定位技术对本地XML进行过滤优化,然后研究结合分布式哈希表P2P网络节点中的XML数据的过滤,以及动态条件下的优化过滤,并通过与原有方法的实验对比证明改进后方法的有用性和有效性。其中涉及到P2P网络的过滤机制和动态过滤的研究对于未来的研究提供了良好的理论基础和思路。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邱道文;量子自动机的刻画[J];软件学报;2003年01期
2 谢清;谭建荣;冯毅雄;;基于自动机的可配置产品功构映射过程研究[J];计算机集成制造系统;2007年09期
3 赵岭忠;王雪松;钱俊彦;;改进形式语言与自动机理论课程教学刍议[J];高教论坛;2008年03期
4 钱俊彦;赵岭忠;;基于自动机理论的符号模型检验[J];兰州理工大学学报;2008年05期
5 刘建国;袁志斌;;基于左右语言的状态迁移系统的优化[J];计算机科学;2009年05期
6 闵兰;刘益;;奇偶校验自动机的逻辑形式描述[J];西南师范大学学报(自然科学版);2009年03期
7 彭家寅;;基于完备剩余格值逻辑的自动机和文法理论[J];模式识别与人工智能;2011年05期
8 肖芬芳;何勇;胡斌梁;王志喜;;拟陷阱同步自动机的最短同步字的长度[J];计算机科学;2012年11期
9 张惠民;;用自动机理论设计步进电机电源[J];机械工业自动化;1992年01期
10 沈虹;;环境自动机的测试等价类[J];计算机科学;2002年08期
11 刘光武;许进;潘林强;;黑白数字图像的有穷状态自动机表示方法[J];武汉理工大学学报(交通科学与工程版);2006年05期
12 阎航宇;易忠;邓培民;;有限群自动机的若干环论与图论性质[J];广西师范大学学报(自然科学版);2007年01期
13 张萌;高德远;樊晓桠;;基于混合自动机的PSL模型研究[J];计算机应用研究;2010年01期
14 John Howard;苏运霖;;用自动机建立操作系统模型[J];计算机科学;1980年06期
15 郝克刚,段振华,李新;论回溯自动机[J];计算机学报;1990年05期
16 王良文,沈伟明,李健勇;自动机循环图设计理论的再认识[J];郑州轻工业学院学报;1994年01期
17 纪明宇;王海涛;陈志远;;基于自动机的概率计算树逻辑验证方法[J];计算机工程;2013年12期
18 刘春霞;;确定的与非确定的公式时钟自动机的等价性[J];科技信息(科学教研);2008年17期
19 张继军;吴哲辉;董卫;耿霞;;袋自动机[J];计算机研究与发展;2008年S1期
20 胡忠刚;孙小迎;覃湘藩;邓培民;;树自动机的同余与同态及其语言[J];高校应用数学学报A辑;2011年03期
中国重要会议论文全文数据库 前3条
1 西广成;;抽象神经自动机演化过程中熵极限性质[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 苏仕云;郭瑞强;乐嘉锦;;有穷状态自动机在商业逻辑建模中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 阳斌;秦琳琳;吴刚;;基于混杂自动机的温室温度系统建模与控制[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 田径;关于自动机代数理论的研究[D];西北大学;2012年
2 刘光武;自动机状态复杂度及模型研究[D];华中科技大学;2007年
3 文艳军;基于接口自动机的组合验证方法研究[D];国防科学技术大学;2005年
4 张薇;自动机和链编码的理论研究与应用[D];华东师范大学;2006年
5 李丹美;模糊离散事件自动机组合的控制与切换[D];东华大学;2009年
6 陈文宇;形式语言与自动机理论若干问题研究[D];电子科技大学;2009年
7 韩召伟;几类基于量子逻辑的自动机的代数及逻辑刻画[D];陕西师范大学;2011年
8 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
9 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
10 袁志斌;基于模拟理论的模型检测研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈晴雷;量子自动机的乘积研究[D];四川师范大学;2012年
2 高璞;基于白血病的生物分子多状态自动机[D];北京工业大学;2007年
3 张柯柯;回溯自动机的文法、机器模型及其在解析器中的应用[D];西安电子科技大学;2014年
4 李琳娜;公式时钟自动机[D];郑州大学;2005年
5 秦永彬;等价性在自动机极小化中的应用[D];贵州大学;2007年
6 张瑞民;格值树自动机的最小化[D];陕西师范大学;2011年
7 万敏;自动机的推导与优化算法的结合[D];四川师范大学;2004年
8 万美凯;关于模糊ω-自动机若干问题研究[D];四川师范大学;2007年
9 杨静;几类自动机的性质探讨[D];四川师范大学;2010年
10 赵冬;对时间输入/输出自动机有效地进行一致性测试[D];郑州大学;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978