收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自动机的XML数据过滤研究

沈洁  
【摘要】:随着Internet在金融证券管理、Web日志等领域的广泛应用,对半结构化数据的管理不断提出新的需求,半结构化的数据及其相关技术已经成为当前数据处理领域的研究热点之一。XML是半结构化数据的一种特殊表现形式,是一种全新的Web数据表示和交互标准,越来越多的Web数据通过XML格式进行存储和交互。而对于任何数据库,过滤都是其中重要的一环,因此对于XML数据的过滤研究具有非常重要的意义。本文结合自动机的相关理论和方法,对XML在本地以及网络上的过滤算法进行深入地研究。 本文首先研究XML过滤过程中的缓存失效问题,提出用一种两阶段评估方法来对XML过滤过程中的缓存失效进行量化分析。通过分析基于DFA的XML数据过滤过程,来评估过滤过程中强制失效和容量失效发生的数量。首先在一个过滤周期内通过构造标签树来统计出查询过滤过程中强制性失效的数量。其次在第i个过滤周期,考虑对之前i-1个周期过滤结果的重用,通过对工作集的交、并、差运算,估算出了第i个过滤查询周期的强制性缓存失效和容量失效的数量。最后通过实验验证评估的结果具有较高的精确度。 其次,在LazyDFA过滤系统的基础上,引入频繁访问区的概念,提出一种DFA-FA过滤机制。通过减少存取过程中的缓存失效,提高过滤的性能。首先给出频繁访问区的概念,再给频繁访问区的大小设置一个限制,然后考虑频繁访问区中节点在存取频率上最佳阈值的选择。最后实验证明优化后的过滤机制在性能上有明显的改善。 再次,针对P2P网络节点上的XML数据流,提出分布式NFA的过滤机制,解决peer节点之间交互的XPath过滤。首先将NFA加入到Chord环中,然后在本地YFilter系统中递增地构造分布式的NFA。然后提出两种方法执行分布式NFA:迭代方式和递归方式,并通过实验验证递归方式具有更好的执行性能。最后的实验证明,针对各种不同的负载情况,当改变查询数量及网络大小时,分布式NFA过滤机制都具有很好的过滤性能,并且对于存储负载和过滤负载都可以得到较好的负载均衡性。 最后在XPush自动机的基础上提出了一种集成XPush过滤机制,解决XML数据流查询过程中的动态更新问题。首先定义了集成XPush自动机中的数据表示,集成状态表和集成状态转移表,以及集成状态表的集成键和每个子XPush自动机的键值。然后对集成XPush自动机进行动态地更新,更新的过程分为两类,一类是分离进程,就是在一个集成XPush自动机上分离一个子XPush自动机,这就相当于过滤要求的删减,另一类是增加新的过滤进程,用来处理增加了新的子XPush自动机后的集成XPush自动机。并通过实验与原来的XPush自动机进行比较,证明集成XPush方法受过滤要求改变的影响远远小于XPush自动机。 本文的工作围绕利用自动机对XML数据进行过滤的改进而展开,先是利用缓存访问定位技术对本地XML进行过滤优化,然后研究结合分布式哈希表P2P网络节点中的XML数据的过滤,以及动态条件下的优化过滤,并通过与原有方法的实验对比证明改进后方法的有用性和有效性。其中涉及到P2P网络的过滤机制和动态过滤的研究对于未来的研究提供了良好的理论基础和思路。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 李新叶;苑津莎;;一种快速的XML语义检索算法[J];电子学报;2007年11期
2 胡勤友,胡运发;基于扩展路径表达式的XML查询[J];计算机研究与发展;2003年05期
3 高军,杨冬青,王腾蛟,唐世渭;一种XML数据流之上持续查询执行器的增量维护方法[J];计算机研究与发展;2005年05期
4 金鑫;金远平;;一种改进的基于约束关系的XML查询重写算法研究[J];计算机研究与发展;2007年05期
5 姚佳丽;张坤龙;王珊;;基于P2P的数据索引与查询[J];计算机科学;2005年03期
6 朱茂盛,许英华;一种新的基于有限自动机的XML过滤方法[J];计算机工程;2004年24期
7 徐德智,吴敏;XML自动机的构造及实用化研究[J];计算机学报;2003年04期
8 王国仁;于勇前;孙冰;;利用自动机高效处理XML路径表达式查询[J];计算机学报;2007年09期
9 高军,杨冬青,唐世渭,王腾蛟;一种基于DTD的XPath逻辑优化方法[J];软件学报;2004年12期
10 高军,杨冬青,唐世渭,王腾蛟;基于树自动机的XPath在XML数据流上的高效执行[J];软件学报;2005年02期
中国博士学位论文全文数据库 前10条
1 张忠平;基于约束的XML数据库模式规范化研究[D];复旦大学;2004年
2 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
3 徐德智;XML数据库查询及其模式集成研究[D];中南大学;2004年
4 孙伟;XML数据库查询优化及相关技术研究[D];哈尔滨工程大学;2006年
5 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
6 朱茂盛;XML路径表达式优化及其查询和过滤计算方法[D];中国科学院研究生院(计算技术研究所);2004年
7 王静;XML路径查询处理关键技术研究[D];中国科学院研究生院(计算技术研究所);2003年
8 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
9 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年
10 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
中国硕士学位论文全文数据库 前1条
1 崔敏;基于lazyDFA的XML数据流查询处理及优化技术研究[D];内蒙古科技大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廖湖声;汤林;;基于XQA查询代数的去除相关性方法[J];北京工业大学学报;2009年08期
3 毕鲁雁;焦宗夏;范圣韬;;机电系统多学科综合设计异构信息集成[J];北京航空航天大学学报;2009年04期
4 浦贵阳,李小东;BPM——商业竞争的信息化战略武器[J];商业研究;2005年05期
5 陈荣鑫;;基于函数式中间语言的XML查询并行化[J];重庆理工大学学报(自然科学);2011年07期
6 朱燕;;树自动机理论在XML中的应用[J];燕山大学学报;2006年06期
7 韩旭东;;一种基于非等概率更新的XML区间编码方法[J];电大理工;2008年02期
8 覃遵跃;蔡国民;黄云;;SQL Server 2005查询XML数据优化研究[J];东莞理工学院学报;2008年05期
9 梁冰;刘群;;基于自动机模型数据关联性能评估算法[J];电子科技大学学报;2008年04期
10 石隽锋;陶世群;;一种有效的XML数据库的小枝模式匹配算法[J];电脑开发与应用;2008年03期
中国重要会议论文全文数据库 前10条
1 张海峰;刘军;;基于ADO网络结构模型的动态数据查询[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年
2 张元平;丁晓明;曾一;林梅;;一种基于第三方的XML数据发布方法[A];2008年计算机应用技术交流会论文集[C];2008年
3 张一鸣;杨喜权;王大勇;;面向XML的搜索引擎及其索引技术[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
4 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
5 卢佳佳;肖桂荣;;基于地理空间信息元数据的标准符合性测试方案设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
6 阎秀美;周亚建;胡正名;;关系型数据库中XML索引技术研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
7 赵宏;申超;;异构视频服务系统集成与调度策略研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
8 熊瑛;许建;;船舶信息集成平台技术研究[A];第四届全国船舶与海洋工程学术会议论文集[C];2009年
9 刘萍;谭建龙;;XML内容筛选中的快速串匹配算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 姚美玲;刘贵全;;基于分层的以目标结点为导向的XML枝匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
3 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 高世文;武器装备快速扩散制造系统及关键技术研究[D];南京航空航天大学;2010年
7 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
8 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
9 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
10 胡勤友;Web上的多主体系统若干关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 白林;基于路径表达式的XML索引查询技术[D];郑州大学;2010年
2 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
3 高鹏;基于数字电视平台的制播存一体化研究与设计[D];哈尔滨工程大学;2010年
4 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
5 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
6 张麟;XML数据查询优化技术的研究[D];哈尔滨理工大学;2010年
7 刘竹;炼钢厂MES系统的关键技术的研究与实现[D];南昌大学;2010年
8 刘涛;基于.NET平台C/S与B/S结构并存的钢铁企业生产管理系统的研究与开发[D];南昌大学;2010年
9 沈春辉;数字图书馆中海量数据存储组织的研究与实现[D];浙江大学;2011年
10 胡青;语义目录的实现机制研究[D];武汉科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 吴劲,陈泽琳;基于部分匹配的XML文本文档向量检索模型[J];电子学报;2002年S1期
2 游荣义,陈忠;一种基于ICA的盲信号分离快速算法[J];电子学报;2004年04期
3 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
4 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
5 郑仕辉,周傲英,季文赟,梁宇奇,张龙,田增平;基于SQL的XML查询的有效实现[J];计算机研究与发展;2001年04期
6 曾海泉,宋扬,申展,胡运发;基于互关联后继树的时间序列相似性查询[J];计算机研究与发展;2004年02期
7 吕腾,顾宁,施伯乐;XML DTD的一种范式[J];计算机研究与发展;2004年04期
8 朱永泰,王晨,洪铭胜,汪卫,施伯乐;ESPM——频繁子树挖掘算法[J];计算机研究与发展;2004年10期
9 吴永辉;消除结构冗余的XML数据库模式规范化设计[J];计算机研究与发展;2004年10期
10 张忠平,王超,朱扬勇;基于约束的XML文档规范化算法[J];计算机研究与发展;2005年05期
中国博士学位论文全文数据库 前2条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 张忠平;基于约束的XML数据库模式规范化研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前2条
1 郭永明;XML文档检索技术研究[D];太原理工大学;2003年
2 陈明;XML概念模型及其转换研究[D];武汉理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 邱道文;量子自动机的刻画[J];软件学报;2003年01期
2 谢清;谭建荣;冯毅雄;;基于自动机的可配置产品功构映射过程研究[J];计算机集成制造系统;2007年09期
3 赵岭忠;王雪松;钱俊彦;;改进形式语言与自动机理论课程教学刍议[J];高教论坛;2008年03期
4 钱俊彦;赵岭忠;;基于自动机理论的符号模型检验[J];兰州理工大学学报;2008年05期
5 刘建国;袁志斌;;基于左右语言的状态迁移系统的优化[J];计算机科学;2009年05期
6 闵兰;刘益;;奇偶校验自动机的逻辑形式描述[J];西南师范大学学报(自然科学版);2009年03期
7 彭家寅;;基于完备剩余格值逻辑的自动机和文法理论[J];模式识别与人工智能;2011年05期
8 肖芬芳;何勇;胡斌梁;王志喜;;拟陷阱同步自动机的最短同步字的长度[J];计算机科学;2012年11期
9 张惠民;;用自动机理论设计步进电机电源[J];机械工业自动化;1992年01期
10 沈虹;;环境自动机的测试等价类[J];计算机科学;2002年08期
中国重要会议论文全文数据库 前3条
1 西广成;;抽象神经自动机演化过程中熵极限性质[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 苏仕云;郭瑞强;乐嘉锦;;有穷状态自动机在商业逻辑建模中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 阳斌;秦琳琳;吴刚;;基于混杂自动机的温室温度系统建模与控制[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 田径;关于自动机代数理论的研究[D];西北大学;2012年
2 刘光武;自动机状态复杂度及模型研究[D];华中科技大学;2007年
3 文艳军;基于接口自动机的组合验证方法研究[D];国防科学技术大学;2005年
4 张薇;自动机和链编码的理论研究与应用[D];华东师范大学;2006年
5 李丹美;模糊离散事件自动机组合的控制与切换[D];东华大学;2009年
6 陈文宇;形式语言与自动机理论若干问题研究[D];电子科技大学;2009年
7 韩召伟;几类基于量子逻辑的自动机的代数及逻辑刻画[D];陕西师范大学;2011年
8 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
9 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
10 袁志斌;基于模拟理论的模型检测研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈晴雷;量子自动机的乘积研究[D];四川师范大学;2012年
2 高璞;基于白血病的生物分子多状态自动机[D];北京工业大学;2007年
3 张柯柯;回溯自动机的文法、机器模型及其在解析器中的应用[D];西安电子科技大学;2014年
4 李琳娜;公式时钟自动机[D];郑州大学;2005年
5 秦永彬;等价性在自动机极小化中的应用[D];贵州大学;2007年
6 张瑞民;格值树自动机的最小化[D];陕西师范大学;2011年
7 万敏;自动机的推导与优化算法的结合[D];四川师范大学;2004年
8 万美凯;关于模糊ω-自动机若干问题研究[D];四川师范大学;2007年
9 杨静;几类自动机的性质探讨[D];四川师范大学;2010年
10 赵冬;对时间输入/输出自动机有效地进行一致性测试[D];郑州大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026