收藏本站
《东北大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

XML非完全结构查询处理中若干关键技术的研究

李晓光  
【摘要】:随着Internet的发展和异构信息源集成技术以及存储技术的进步,网络中涌现出大量半结构化数据资源。XML由于其所具有的自描述性、灵活的数据结构以及丰富的数据表示能力等特点,逐渐成为数据表示、存储和交换标准之一。近年来,XML非完全结构查询处理技术作为有效管理XML文档的关键技术之一,引起越来越多研究人员的关注。 XML非完全结构查询(Non-fully Structured Query,NFS Query)是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求。NFS查询是近两年出现的XML查询技术,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。在实际中,特别是在Internet和Intranet上,大部分XML文档缺少结构说明或存在异构现象,这使得NFS查询有着广泛的应用前景。本文就XML非完全结构查询处理技术中的有意义的NFS查询结果判断技术和基于内容的查询结果聚类技术进行了深入研究。 有意义的NFS查询结果判断是NFS查询处理中非常重要的一环,现有的判断方法,如XSEarch中的Interconnection Relationship和Timber中MLCA,都是从一个特定的角度来设计判断标准,缺乏一个准确和全面的定义,这使得它们只能适用于特定的XML文档。另外,现有方法无法适应于大规模XML文档,如XSEarch的索引建立时间和Timber的查询时间在大规模XML文档下远远超出用户的容忍程度。 本文提出了一种基于模式和实体概念的有意义的NFS查询结果判断模型一PE模型。PE模型从系统角度出发定义了一种用户普遍接受的判断方法,与具体的等价模式和等价查询项的判断方法无关,具有可扩展性。基于PE判断模型,提出一种具体的基于结构相似性的等价模式判断方法,并给出了一个判断规则。为了提高NFS查询的执行效率,设计了模式索引PE和增强的倒排索引I2P,提出一种高效的NFS查询算法,它们不仅可以支持高效的路径查询和关键字查询,而且可以有效地支持本文提出PE模型,并有效地利用了现有XML数据库系统中的索引资源,适用于大部分XML编码方案。实验表明,本文方法的效率和准确率要远远高于XSEarch和Timber系统,适用于大规模XML文档。 NFS查询为非精确查询,在XML文档规模较大的情况下,NFS查询往往返回大量结果。而以文档为中心的XML文档节点包含了大量的文本信息,为了方便用户快速定位所需信息,通常需要对结果按照内容进行聚类。文档聚类是实现这一目的的有效技术之一。基于概率模型的聚类方法具有高维数据适用性和簇可
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP312.2

【引证文献】
中国博士学位论文全文数据库 前5条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
3 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
4 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
5 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
中国硕士学位论文全文数据库 前4条
1 闫毛毛;基于Lucene教学资源搜索引擎的设计与实现[D];西南交通大学;2011年
2 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
3 王文艳;基于一种半结构化数据模型的频繁模式挖掘研究[D];哈尔滨工程大学;2008年
4 胡江明;XML数据编码与小枝模式查询的研究[D];中南大学;2010年
【参考文献】
中国期刊全文数据库 前9条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
5 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
6 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
7 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
8 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
9 陈宁,陈安,周龙骧,贾维嘉,罗三定;基于模糊概念图的文档聚类及其在Web中的应用[J];软件学报;2002年08期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
5 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
6 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
7 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
8 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
9 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
10 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 陈双平;郑浩然;王习书;王煦法;;生物序列的描述复杂性分析[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 李鸿;马小平;;基于特征的粒表示研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 王德光;胡宝清;覃开贤;;复杂性科学在喀斯特土地利用系统研究中的应用[A];发挥资源科技优势 保障西部创新发展——中国自然资源学会2011年学术年会论文集(上册)[C];2011年
6 赵力;曾毓敏;邹采荣;吴镇扬;;基于子空间分析的语音信号寂声语声段识别方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
8 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
9 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
10 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
5 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
6 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
7 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
8 张海刚;编码与调制—移动通信系统关键技术研究[D];山东大学;2010年
9 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
10 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
3 夏光磊;关于XML的关系数据库存储查询技术研究[D];山东科技大学;2010年
4 裴银肖;贝叶斯博弈信息融合模型及算法的研究和应用[D];郑州大学;2010年
5 李云刚;自由搜索算法的改进及其在图像分割中的应用[D];哈尔滨工程大学;2010年
6 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
7 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
8 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
9 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
10 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 曹春雷;李门楼;罗赟莹;孙占法;;GIS技术在地质灾害区划中的应用——以山西省兴县为例[J];安徽农业科学;2007年07期
2 陈伟,丁秋林;一种XML相似重复数据的清理方法研究[J];北京航空航天大学学报;2004年09期
3 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
4 赵霞;王平;龚亚丽;谭瑾;李向荣;任毅;;基于GIS的内蒙古中部区域洪水灾害风险评价[J];北京师范大学学报(自然科学版);2007年06期
5 何政伟,黄润秋,许强,姜琪文,赵银兵,刘少军;基于ARCGIS的地质灾害防治信息与决策支持系统的研制[J];吉林大学学报(地球科学版);2004年04期
6 许啸春;陈钊;龚茂珣;;区域性海洋环境灾害信息网络服务系统总体设计[J];吉林大学学报(地球科学版);2007年S1期
7 陈平;丛威青;;GIS支持下的湖南省地质灾害气象预警系统建设探讨[J];成都理工大学学报(自然科学版);2006年05期
8 范继跃;何政伟;赵银兵;倪忠云;陈小亮;;GIS在四川九龙县地质灾害区划中的应用[J];成都理工大学学报(自然科学版);2007年02期
9 谢韬;何政伟;黄民奇;许辉熙;汪宙峰;;RS与GIS技术在库区地质灾害调查中的应用研究[J];测绘科学;2007年01期
10 李黎;李剑;;基于空间数据引擎的综合地下管线数据组织[J];测绘科学;2007年02期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
2 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
3 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
4 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
5 张忠平;基于约束的XML数据库模式规范化研究[D];复旦大学;2004年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 孙斌;基于GIS的办公自动化系统开发技术的研究和探讨[D];中国地质大学(北京);2005年
8 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
9 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
10 钟将;基于人工免疫的入侵分析技术研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 史鹏辉;专业服务网站搜索引擎的设计与实现[D];大连理工大学;2004年
2 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
3 王石;基于XML的Web挖掘[D];东北师范大学;2005年
4 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
5 黄国景;元搜索引擎个性化搜索的研究与设计[D];苏州大学;2005年
6 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
7 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
8 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
9 张忆;基于XML的频繁模式发现研究[D];合肥工业大学;2006年
10 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
【二级引证文献】
中国期刊全文数据库 前2条
1 曹一冰;华一新;汪军;王关军;;基于DotLucene的全文检索及其在GIS中的应用[J];测绘工程;2011年06期
2 王锦;何先波;贺春林;;改进XISS索引技术的仿真研究[J];计算机科学;2012年01期
中国重要会议论文全文数据库 前1条
1 黄敏;王震;杨诚;王颖;;XBRL数据在原生XML数据库中存储与检索的研究[A];第九届全国会计信息化年会论文集(上)[C];2010年
中国博士学位论文全文数据库 前2条
1 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
2 黄健;城市供水水质监测与预警平台构建及关键技术研究[D];中国地质大学(北京);2011年
中国硕士学位论文全文数据库 前10条
1 刘帆;基于数据包特征的僵尸木马检测技术[D];天津理工大学;2010年
2 徐晓蕾;基于流程挖掘的甄别正常与非正常案例的模型[D];山东大学;2011年
3 苏晓辉;构件垂直搜索引擎的关键技术研究[D];华中科技大学;2011年
4 吴华;基于SOA架构的法院档案管理信息系统研究[D];天津大学;2012年
5 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
6 吴向伟;基于XML的蒙古文教育资源存储、索引和管理系统的研究与实现[D];内蒙古大学;2010年
7 胡江明;XML数据编码与小枝模式查询的研究[D];中南大学;2010年
8 姚美玲;基于版本树的改进XML枝匹配算法研究[D];中国科学技术大学;2010年
9 张振宇;服务器振动性能仿真支撑系统研究与开发[D];电子科技大学;2012年
10 李伟;应急信息发布系统的研究与实现[D];电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
5 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
6 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
7 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 郑家恒,刘开瑛;汉语姓名自动辨识初探[J];语言文字应用;1994年02期
10 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 李发美;试论信息传输过程与认识过程的共同特征[J];湖南师范大学社会科学学报;1988年05期
2 张辰,文元美;信息论在认识和记忆中的运用[J];广东工业大学学报(社会科学版);2004年S1期
3 陈立万;阮玲英;;信息论中的反向试验信道的优势分析[J];现代电子技术;2006年03期
4 夏远;程大章;;智能建筑与信息论[J];IB智能建筑与城市信息;2006年06期
5 吕欣;马智;冯登国;;安全隐写系统的信息理论分析[J];计算机科学;2006年06期
6 蒋挺;赵成林;周正;;准最佳屏蔽二进阵列偶理论研究[J];电子学报;2007年01期
7 王炜;;信息论对教育发展的启示[J];产业与科技论坛;2007年08期
8 刘松涛;杨绍清;;图像配准技术研究进展[J];电光与控制;2007年06期
9 张春涛;;遗传算法在信息论中的应用[J];重庆三峡学院学报;2008年03期
10 张聪;;基于信息论的数字水印策略[J];武汉工业学院学报;2008年03期
中国重要会议论文全文数据库 前10条
1 曹艳梅;;从Shannon & Moles的交际理论看语言交际中的冗余性[A];第六届中国跨文化交际研究会年会论文摘要汇编[C];2005年
2 徐孔庆;;从信息论谈提高课堂教学效率[A];基于信息技术的教学新模式研究[C];2006年
3 ;前言[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 陈伟;;从信息论角度对FDMA、TDMA和CDMA之比较研究[A];大连海事大学校庆暨中国高等航海教育90周年论文集(船舶通信与导航分册)[C];1999年
5 ;中国电子学会第十七届信息论学术年会征文通知[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 ;中国电子学会第十七届信息论学术年会征文通知[A];中国通信学会第六届学术年会论文集(中)[C];2009年
7 杜梦玄;;针灸作用机理信息增强规律[A];中国针灸学会2009学术年会论文集(下集)[C];2009年
8 赵维俊;金立俊;;不断提高对读者的服务质量 努力做新世纪的信息导航员[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
9 ;中国电子学会第十六届信息论学术年会征文通知[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
10 贾彦国;郭继山;;最佳三进阵列偶的研究[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 毕东海;信息论的深远影响[N];浙江日报;2000年
2 王春梅;充分调动社会打假资源[N];中国医药报;2004年
3 陈力丹;当以信息论新闻[N];湖南日报;2002年
4 杨贝;走近信息论之父——香农博士[N];光明日报;2001年
5 亦实;广义信息论方法[N];中国纪检监察报;2005年
6 ;追忆信息论之父-香农博士[N];科技日报;2001年
7 贝尔实验室 中国基础研究院供稿;信息论之父香农博士去世[N];华夏时报;2001年
8 高德 高德哲学与医学网 □ 付兰英 包头市第四医院;探讨中医“气”的哲学实质[N];中国中医药报;2006年
9 沈新曦;地球人需要面向星际的新哲学[N];广州日报;2007年
10 刘卉;互联网对法官及法治的影响[N];检察日报;2006年
中国博士学位论文全文数据库 前10条
1 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 李效东;自治异构数据源的集成查询处理[D];中国科学院研究生院(软件研究所);2002年
5 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
6 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
7 陈岗;整合野对初级视皮层区神经元方位选择性的影响[D];中国科学院研究生院(上海生命科学研究院);2005年
8 卿铭;模糊熵及其在模糊系统优化中的应用[D];西南交通大学;2006年
9 刘茂福;图像挖掘中的图像预处理技术研究[D];武汉大学;2005年
10 徐建程;相位干涉测量的信息理论分析[D];中国工程物理研究院;2009年
中国硕士学位论文全文数据库 前10条
1 王照岳;XML查询处理技术研究与实现[D];浙江大学;2002年
2 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
3 滕海明;基于语义标记树的XML文档聚类研究[D];浙江大学;2011年
4 高兵;XML在关系数据库中存储和查询方法的研究[D];哈尔滨工程大学;2004年
5 葛川梅;从信息论的角度看翻译中的冗余等值[D];重庆大学;2003年
6 宫劲松;基于密度与模糊集的XML文档聚类[D];吉林大学;2012年
7 刘振鹿;基于LDA的潜在语义空间分析及Web文档聚类的研究与实现[D];东北大学;2010年
8 杜志华;文化缺省的翻译和信息理论中的冗余平衡[D];西安电子科技大学;2007年
9 张人;一种新的动态XML文档聚类方法[D];吉林大学;2012年
10 张莹;信息论予旅游宣传资料的翻译[D];西北工业大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026