收藏本站
《河北大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息抽取规则的优化及规则的XQuery表达

陈少飞  
【摘要】: 随着Internet的飞速发展,World Wide Web已经发展成为全球传播与共享科研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标记语言发布的Web信息面向显示,缺乏模式信息和语义信息,为了更有效的管理和组织Web信息,实现对Web信息高效的查询与检索,XML及其相关规范随之诞生了,并成为了人们公认的信息交换标准。XML将Web信息的语义与显示分离开来,通过定义带有语义信息的标记,提供了应用程序处理Web信息时所需的语义信息。但是,Web上大量存在的有价值的信息仍然是HTML格式的,为了以结构化和一致的方式访问Web信息,人们采用了信息抽取技术,并成为当前研究热点之一。 本文在分析影响信息抽取准确率和召回率的各种因素的基础上,改进了基于HTML结构的Web信息抽取方法。在仔细研究这方面的典型系统和方法,深入分析抽取依据,网页结构与语义模式匹配性的基础上,该方法引入了相互联系的三层规则:初始规则、最优规则和基于XQuery的复杂对象抽取规则。首先,系统在用户的帮助下生成初始规则,它由规则段组成;然后,系统自动对初始规则进行归纳,获得语义模式中各语义对象由标准XPath表达的最优规则,为提高性能,在规则优化的过程中引入了反例,并充分考虑了语义模式结构和Web文档结构不匹配对规则形成和构成产生的影响;接着,系统将各语义对象的最优规则组装成一条完整的XQuery查询语句,作为复杂对象的抽取规则,最后系统利用XQuery引擎执行XQuery查询语句实现对相似页面的信息抽取。该方法提高了现有信息抽取技术的效率和健壮性,有效地解决了语义模式结构与Web文档结构不匹配引发的问题;采用与IDL兼容的受限XML作为语义模型,增强了输出格式的灵活性;利用XQuery表达抽取规则,使其具有通用性,引擎易于与基于Web技术的应用相结合;另外,利用该方法,抽取可以处理选择和投影操作。实验证明,该方法具有比较高的准确率和召回率。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.09

【引证文献】
中国硕士学位论文全文数据库 前3条
1 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
2 潘晓玲;数字图书馆非标准数据资源整合检索系统的研究与实现[D];北京交通大学;2007年
3 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
3 程渤,浮花玲,杨国纬;基于工作流及集成中间件技术的电力信息一体化设计及实现[J];电力系统自动化;2004年19期
4 关冰核;基于XML的WEB数据挖掘技术系统框架的设计[J];电脑知识与技术;2004年23期
5 黄伟;刘娟;;一种基于DOM树的HTML转换为XML的方法[J];电脑知识与技术;2006年20期
6 邓莎莎;梁建利;;基于互联网的异构数据源集成的研究与实现[J];上海电力学院学报;2005年04期
7 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
8 张海强,张永;网络用法挖掘及其应用[J];兰州理工大学学报;2004年05期
9 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
10 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
中国重要会议论文全文数据库 前10条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
2 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
3 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八届国际信号处理国际会议论文集[C];2006年
10 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 徐德智;XML数据库查询及其模式集成研究[D];中南大学;2004年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
4 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
5 鱼滨;基于XML的集成中间件技术研究[D];西北大学;2003年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
10 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 何芳;基于模式的XML查询重写及索引技术研究[D];中南大学;2005年
2 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
3 周贺来;Web挖掘中关联规则的研究与应用[D];郑州大学;2006年
4 韩新超;XML数据的存储和查询的研究[D];燕山大学;2004年
5 陈皓;电力设备状态检修辅助分析系统的研究与实现[D];西安理工大学;2005年
6 赖同庆;XML数据存储与检索研究[D];中南大学;2004年
7 李红梅;新制造环境下质量成本控制体系研究[D];中南大学;2003年
8 王晶;生物信息二级数据库系统分层框架模型研究[D];华中科技大学;2004年
9 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
10 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 吴相智,刘卫国,费洪晓;一种基于栈结构的HTML到XML的转换方法[J];长沙交通学院学报;2004年02期
3 王亮,郭一平;基于Webservice的异构数据库检索系统[J];大学图书馆学报;2004年01期
4 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
8 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
9 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期
10 陈玉芳,葛燧和;一个基于XML的WEB数据收集模型的研究[J];计算机工程与应用;2004年10期
中国博士学位论文全文数据库 前1条
1 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
3 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
4 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
5 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
6 火善栋;基于XML的Deep Web信息抽取系统的研究与初步实现[D];昆明理工大学;2006年
7 李新安;基于领域主题的Web信息检索技术研究[D];山东大学;2006年
8 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
9 徐莹莹;使用表单分类器识别特定领域的深度网入口[D];吉林大学;2007年
10 钱贵平;非结构化Deep Web信息的自动抽取[D];吉林大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 江源,孙建伶;XML查询语言[J];计算机时代;2002年01期
2 支宗良;陈少飞;;一种基于XQuery的优化Web信息抽取方法[J];计算机应用;2008年01期
3 胡立辉,周春华;基于.NET的XQuery处理器的实现及性能分析[J];长沙理工大学学报;2005年02期
4 孙宏伟,张树生,周竞涛,王静;模式映射弱依赖的XQuery到SQL转换算法[J];计算机辅助设计与图形学学报;2004年09期
5 吴冬梅,王树国,蔡鹤皋;XQuery技术在制造业产品数据管理上的应用研究[J];机械设计与制造工程;2002年04期
6 史哲慧,钟宁,陈兆乾;一种基于扩展XQuery的XML文档更新方法[J];计算机应用研究;2004年07期
7 吴铁洲,徐元中,武明虎;XML查询语句转换成SQL语句的实现[J];湖北工业大学学报;2005年01期
8 陆文卓,钟宁,陈兆乾;一种XML文档更新操作的实现[J];计算机应用;2004年05期
9 张志强,李天柱,张波,陈少飞,郝亚南;基于文档结构的信息抽取规则的描述语言比较研究[J];河北大学学报(自然科学版);2004年02期
10 孟小峰,罗道锋,蒋瑜,王宇;OreintXA:一种有效的XQuery查询代数[J];软件学报;2004年11期
中国重要会议论文全文数据库 前10条
1 陆世潮;孟小峰;林灿;王宇;;OrientX中XQuery的导航式实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 任咏林;秦勉;任伟林;于重重;;基于XML的查询技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 张晓博;廖湖声;;支持XML查询代数和树模式查询的XQuery系统框架[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 ;Research of Massive Heterogeneous Data Integration Based on Lucene and XQuery[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
5 刘树杰;杨沐昀;赵铁军;;翻译规则优化中的分层优化方法[A];第三届学生计算语言学研讨会论文集[C];2006年
6 夏海峰;包小源;杨冬青;;XSS:一种基于XSD的XML概要树[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 何欣;王世文;;XQuery对电子商务数据的加工处理[A];2005中国控制与决策学术年会论文集(下)[C];2005年
8 周进刚;赵大哲;纪勇;;一种XML规则语言及其实现[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
9 张云锋;于进福;李宁;;基于XML的多媒体检索技术研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 熊玉庆;唐新怀;;XCouple:一个新型异构信息集成平台[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国重要报纸全文数据库 前10条
1 ;W3C收到XQuery测试套件[N];计算机世界;2003年
2 ;XML+SQL=数据库的未来?[N];网络世界;2003年
3 陈敏编译自《InfoWorld》;数据库的XML[N];计算机世界;2004年
4 Tim Matthews;EII带来智能新世界[N];计算机世界;2004年
5 王如;数据库与XML[N];网络世界;2002年
6 李建忠;Yukon中的XML[N];计算机世界;2004年
7 易水;计算机专业时文选读(899)[N];计算机世界;2002年
8 市人民印刷厂 胡应良 崔选中;关于思想政治工作在企业文化建设中的思考[N];益阳日报;2007年
9 清华大学 李骅竞 邢春晓 张志强;NXDB与XEDB殊途同归[N];计算机世界;2003年
10 本报记者 龚杰 薛斐;应用为王[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 金雪云;基于XQuery的增量计算程序自动生成技术研究[D];北京工业大学;2012年
2 郝宇;基于Kolmogorov复杂性的知识获取方法研究[D];清华大学;2005年
3 苏航;XQuery语言的部分求值技术[D];北京工业大学;2009年
4 梁平;面向产品生命周期数据的XML本源数据库的研究[D];合肥工业大学;2006年
5 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
6 严和平;基于推理的访问控制与审计技术研究[D];复旦大学;2006年
7 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
8 管延勇;粗糙集与信息系统约简—决策规则优化[D];山东大学;2006年
9 徐小双;基于路径概要的XML查询研究[D];华中科技大学;2010年
10 闫巧;基于免疫机理的入侵检测系统研究[D];西安电子科技大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 陈友杰;XQuery动态网页开发系统的研究[D];北京工业大学;2012年
3 李燕宾;XQuery并行实现中任务划分与代价计算模型的研究[D];北京工业大学;2012年
4 王磊;XQuery查询并行调度方法的研究[D];北京工业大学;2012年
5 刘政怡;XQuery Java API的设计与实现[D];安徽大学;2004年
6 刘寅辉;XML查询语言XQuery及其扩展研究[D];西安电子科技大学;2005年
7 杨科朝;XQuery引擎中Twig查询技术研究[D];北京工业大学;2010年
8 高增琦;面向XQuery语言的XML树模式整体匹配方法的研究[D];北京工业大学;2010年
9 李媛媛;基于XQuery的NXD查询的研究[D];中南林业科技大学;2008年
10 谢铉洋;XML查询语言XQuery的编译实现[D];安徽大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026