收藏本站
《中国科学院研究生院(软件研究所)》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

中文XML信息检索系统的研究

曲卫民  
【摘要】: XML信息检索系统与传统的信息检索系统不同,主要体现在:建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。为满足结构复杂、大规模的XML数据管理需要,本文深入研究了XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,主要取得了4个方面的成果:第一,分析了已有的XML数据索引算法中存在的问题,提出了一种高效的动态XML结构索引算法DifX,它采用动态后向结构相似性(D-Bisimilarity)的概念,可以根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。第二,为考虑XML数据中的结构信息对查询结果相关度值的影响,本文提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。第三,分析了XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。第四,设计和开发了一个中文XML信息检索系统的核心功能原型——W2X(Way to XML)。W2X是一个中文XML信息检索系统,它可以管理富含文本信息的XML数据和富含值信息的XML数据,并采用了高效的XML结构索引算法和查询处理算法,可以完成对大规模XML数据的检索。 总之,本文的研究成果为建立高效、准确、实用的XML信息检索系统打下了坚实的基础。
【学位授予单位】:中国科学院研究生院(软件研究所)
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.3

手机知网App
【引证文献】
中国期刊全文数据库 前8条
1 李新叶;李新芳;;基于XML的供电企业分布式异构信息的检索[J];电力系统通信;2008年03期
2 李新叶;苑津莎;;一种快速的XML语义检索算法[J];电子学报;2007年11期
3 林馨;任仲晟;;一种新的XML信息检索索引[J];福建电脑;2008年09期
4 黄耀霖;;基于XML的信息检索研究[J];吉林工程技术师范学院学报;2008年11期
5 肖斌;张郁萍;;XML节点语义研究[J];科技广场;2010年11期
6 江腾蛟;万常选;;面向XML文档的模糊检索排序模型[J];情报杂志;2006年10期
7 李应勇;汪文彬;宋武;;XML信息查询优化研究[J];琼州学院学报;2009年02期
8 邹正宸;左春;;基于XML的客户服务中心通用知识库系统研究[J];计算机工程与设计;2006年20期
中国博士学位论文全文数据库 前4条
1 张晓琳;面向对象的XML数据管理技术研究[D];东北大学;2006年
2 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
3 李新叶;基于XML文档结构语义的信息检索方法与应用研究[D];华北电力大学(河北);2009年
4 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘小兵;XML片段流上的互关系计算研究[D];辽宁大学;2011年
2 禹继波;基于元素链接的XML信息检索系统的研究[D];南京航空航天大学;2010年
3 柴变芳;基于贝叶斯网络的XML文档检索[D];河北大学;2006年
4 江腾蛟;XML文本文档检索技术研究[D];江西财经大学;2006年
5 宋春芳;基于缓冲的XML语义检索系统研究与设计[D];山东大学;2007年
6 庞欢;基于最优搜索的分布式数据检索技术[D];电子科技大学;2008年
7 兰月华;XML模糊结构查询中检索结果的自动选取[D];江西财经大学;2009年
8 朱松;术语相似度和术语相关度的融合研究及应用[D];河北大学;2008年
9 吴杰;地铁自动补票机系统的设计与开发[D];南京理工大学;2013年
10 喻灿;基于本体概念的半结构化文本语义检索[D];华中科技大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 曲卫民,孙乐,孙玉芳;半结构化中文信息检索中查询结果相关度算法的研究[J];中文信息学报;2004年04期
2 曲卫民,孙乐,孙玉芳;XML数据查询中值匹配查询代价估计算法[J];软件学报;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 王光全;同形词族和汉语词类划分[J];北华大学学报(社会科学版);2000年03期
2 刘来旸,瞿有利,樊孝忠;汉语智能输入系统的设计[J];北京理工大学学报;2001年03期
3 张晓琳,谭跃生,戴华忠;基于规则的XML查询语言研究[J];包头钢铁学院学报;2005年02期
4 范云,黄萍,黄俊红;汉英平行语料库双语语义对应空位研究[J];重庆大学学报(社会科学版);2005年02期
5 兰小机,闾国年,刘德儿,张书亮;基于XQuery的GML查询语言研究[J];测绘科学;2005年06期
6 亢世勇;《现代汉语新词语信息(电子)词典》的开发与应用[J];辞书研究;2001年02期
7 亢世勇;《现代汉语语法信息词典》的特点与不足[J];辞书研究;2001年06期
8 阎红灿;王淑芬;朱晓亮;闫少宏;李敏强;;基于XQuery数据模型的XUL语言的定义和实现[J];东北师大学报(自然科学版);2008年04期
9 韩旭东;;一种基于非等概率更新的XML区间编码方法[J];电大理工;2008年02期
10 徐海渊,吴泉源,王怀民,贾焰;基于相容关系的XML索引机制[J];电子学报;2003年08期
中国重要会议论文全文数据库 前10条
1 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 朱学锋;俞士汶;李峰;;汉语语素库的构造及其同语法信息词典的集成[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
3 李竹;;中文信息处理与现代汉语词类研究[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
4 冯志伟;;确定切词单位的某些非语法因素[A];语言文字应用研究论文集(Ⅱ)[C];2004年
5 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
6 郑定欧;;汉语动词词汇语法[A];语言文字应用研究论文集(Ⅱ)[C];2004年
7 张怡;肖侬;杨海云;;基于网格的XMLDB共享访问系统[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
8 张晶;张云生;;基于XML的实时数据一致性查询机制[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年
9 才让加;吉太加;;藏语语料库中词性分类代码的确定[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
2 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
3 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
4 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
5 王俊;现代汉语离合词研究[D];华中师范大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 翟会锋;三官寨彝语参考语法[D];中央民族大学;2011年
8 汤华茂;基于语义的产业链网络化协同设计模式及关键技术研究[D];重庆大学;2010年
9 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
10 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
中国硕士学位论文全文数据库 前10条
1 夏光磊;关于XML的关系数据库存储查询技术研究[D];山东科技大学;2010年
2 白林;基于路径表达式的XML索引查询技术[D];郑州大学;2010年
3 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
4 张麟;XML数据查询优化技术的研究[D];哈尔滨理工大学;2010年
5 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
6 唐红光;基于XPath路径表达式的选择度估算研究[D];中南林业科技大学;2007年
7 李媛媛;基于XQuery的NXD查询的研究[D];中南林业科技大学;2008年
8 商鹏程;结构化信息抽取—半自动化包装器的研究与应用[D];沈阳建筑大学;2011年
9 陈旭;政务信息资源目录服务检索技术的研究与实现[D];东华大学;2011年
10 王莉娜;自然语言理解中形容词多义性的研究及其在产品设计领域的应用[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 刘志勇;网络环境下信息检索效率的评价[J];大连大学学报;2002年01期
2 万博,彭秀艳,李永亮,王凤阳;基于XML的数据交换在变电站自动化中的应用[J];东北电力学院学报;2003年01期
3 金正淑,王彦彬,范小玲;基于XML的电力企业管理中异构数据共享[J];东北电力学院学报;2005年01期
4 王茹;;浅谈结构化和面向对象软件开发方法[J];电大理工;2007年01期
5 杨武,丁丹,荣命哲,陈德桂,贾申利;高压开关柜的在线监测和故障诊断[J];电工技术杂志;2001年03期
6 童时中;模块化与计算机软件设计[J];电力标准化与计量;1997年04期
7 曹阳,姚建国,张慎明,黄海峰;XML技术在电网自动化系统中的应用探讨[J];电力系统自动化;2002年21期
8 张慎明,卜凡强,姚建国,杨志宏,陈梅,赵京虎,曹阳;遵循IEC61970标准的实时数据库管理系统[J];电力系统自动化;2002年24期
9 林济铿,罗萍萍,曹绍杰,C.M.MAK,K.M.YUNG;基于数据挖掘技术的负荷曲线对故障反应相似性的研究[J];电力系统自动化;2005年01期
10 杨争林,宋燕敏,曹荣章;基于Web Services技术的数据申报实现[J];电力系统自动化;2005年04期
中国博士学位论文全文数据库 前9条
1 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
2 胥正川;基于关系数据库的XML数据存储、更新和检索[D];复旦大学;2003年
3 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
4 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年
5 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
7 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
8 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
9 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨超;基于ARM架构的地铁自动检票机控制系统的研究[D];北京交通大学;2011年
2 陈润甲;典型区域设施农业规划环境影响评价指标体系构建研究[D];中国农业科学院;2011年
3 赵强;自动售票机控制系统的设计与实现[D];哈尔滨工业大学;2010年
4 叶飞;地铁自动售票机中票务系统的设计与开发[D];南京理工大学;2012年
5 朱亚波;地铁TVM运营维护系统的设计与开发[D];南京理工大学;2012年
6 徐平;地铁自动售票机中财务系统的设计与开发[D];南京理工大学;2012年
7 于开正;制造业IS开发的DADM方法论探讨[D];厦门大学;2001年
8 郭永明;XML文档检索技术研究[D];太原理工大学;2003年
9 孙登峰;XML文档信息检索技术研究与实现[D];中国人民解放军国防科学技术大学;2002年
10 罗时辉;XML数据存储管理系统[D];南京理工大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 陈建英;刘心松;唐宏斌;谭颖;;基于位置索引的电力信息系统资源共享方案[J];电力系统自动化;2010年07期
2 叶育鑫;欧阳丹彤;;混合语义约简和选择估值优化SPARQL[J];电子学报;2010年05期
3 林馨;任仲晟;;一种新的XML信息检索索引[J];福建电脑;2008年09期
4 杨健;;XML语言在测绘软件开发中的应用[J];甘肃科技;2011年05期
5 吴清怡;马良荔;孙煜飞;;基于数据关系表的XML查询算法[J];辽宁工程技术大学学报(自然科学版);2013年01期
6 赵东;陈向瑞;;企业知识库系统的设计与实现[J];长春师范学院学报;2013年06期
7 王昭龙;李霞;许瑞芳;;多关键字查询中LCA剪枝概念树的查询扩展技术研究[J];计算机科学;2010年04期
8 王锦;何先波;贺春林;;改进XISS索引技术的仿真研究[J];计算机科学;2012年01期
9 廖荣福;李彦;李文强;;面向产品创新设计的知识库研究[J];机械设计;2008年07期
10 肖斌;张郁萍;;XML节点语义研究[J];科技广场;2010年11期
中国重要会议论文全文数据库 前1条
1 黄敏;王震;杨诚;王颖;;XBRL数据在原生XML数据库中存储与检索的研究[A];第九届全国会计信息化年会论文集(上)[C];2010年
中国博士学位论文全文数据库 前10条
1 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
2 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 郭春芬;基于本体的工艺知识管理关键技术研究[D];山东科技大学;2011年
5 刘诏书;管控信息集成关键技术及其在内饰布企业中的应用研究[D];武汉理工大学;2007年
6 奚砚涛;基于开源技术的煤矿地测数据服务体系研究[D];中国矿业大学;2008年
7 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
8 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
9 姜岩;面向方面的XML数据管理技术研究[D];东北大学 ;2009年
10 温延龙;XML信息检索关键技术研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘帆;基于数据包特征的僵尸木马检测技术[D];天津理工大学;2010年
2 张玉国;通用可组态串行协议解析器的设计与实现[D];西安电子科技大学;2010年
3 贾旭东;面向银行卡交易系统的银行IT服务保障系统的构建[D];复旦大学;2010年
4 郜峰;基于Web的磷化工工艺安全评价系统的设计与实现[D];郑州大学;2011年
5 田晋坤;基于本体术语关系的SBN检索模型扩展[D];河北大学;2011年
6 苏晓辉;构件垂直搜索引擎的关键技术研究[D];华中科技大学;2011年
7 吴华;基于SOA架构的法院档案管理信息系统研究[D];天津大学;2012年
8 邱扬英;基于知识的轴类零件设计系统的研究与开发[D];大连理工大学;2006年
9 秦磊;基于XML的信息抽取和集成模型的研究与设计[D];南昌大学;2007年
10 郭增;OPC技术与Overlapped I/O模型通信服务器的研究与开发[D];北京化工大学;2008年
【二级参考文献】
中国期刊全文数据库 前1条
1 曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期
【相似文献】
中国期刊全文数据库 前10条
1 刘玲;;搜索引擎系统的研究与实现[J];科学之友(B版);2007年02期
2 孔田野;李万龙;张海鸥;;基于药品本体的信息检索系统研究[J];河北科技大学学报;2008年03期
3 王志勇;耿亦兵;;统计语言模型在文本信息检索中的应用[J];中国索引;2003年01期
4 周智佑;;信息检索系统评价——国内进展述评[J];情报科学;1993年04期
5 毛雅君;信息检索系统的检索效率影响因素研究进展[J];医学情报工作;2001年03期
6 沈志朝,张丽华,李圆;网络环境下的信息检索新技术[J];华中电力;2005年05期
7 杨建林,邓三鸿;信息检索中相关性的维度与度量[J];情报理论与实践;2005年06期
8 付燕宁;金龙飞;王开锋;刘磊;;基于本体的信息检索系统的设计与实现[J];计算机应用研究;2006年11期
9 隆捷;;信息检索可视化研究[J];情报学报;2006年S1期
10 薛蕴;;现代信息检索对图书馆信息服务的影响[J];科技情报开发与经济;2007年06期
中国重要会议论文全文数据库 前10条
1 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 林耀燊;李文捷;黄绵辉;;信息检索系统中的自然语言处理[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
3 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
6 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
7 陈康;武港山;;基于Ontology的信息检索技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 本报记者 武天敏包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
5 李立红;承钢持续推进多项信息化建设与应用[N];中国冶金报;2008年
6 徐莲芝;24团 农企联手打造无公害农产品基地[N];农民日报;2008年
7 王伟 史忠植;通用与专业[N];计算机世界;2006年
8 通讯员 陈班雄 邹俊 本报记者 于莘明;通向科技巅峰的无名台阶[N];科技日报;2009年
9 张建华;淄博局企业备案实现100%[N];中国国门时报;2008年
10 叶静;站内检索力助网站信息整合[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
9 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
10 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
2 倪良胜;面向海量实时数据信息检索系统的研究与实现[D];东南大学;2004年
3 赵爽;软件测试在信息检索系统中的应用[D];西安电子科技大学;2008年
4 王宏霞;基于ONTOLOGY的信息检索系统的研究[D];河北工业大学;2005年
5 李勇;关于本体整合的研究及其在供应链管理中的应用[D];天津大学;2005年
6 陈朋;基于网络的集成化信息检索平台研究[D];武汉大学;2005年
7 彭鹏;基于本体的信息检索策略优化研究[D];吉林大学;2007年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 王娜;XML在信息检索系统中的应用及评价研究[D];武汉大学;2005年
10 赵鹏;高校数字图书馆网站建设的研究[D];山西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026