收藏本站
《重庆大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的Web信息抽取设计与实现

程书红  
【摘要】: 随着近几年的Internet飞速发展,Web已经发展成为一个巨大的分布和共享信息资源的平台。但如何从Web中快速、有效地获取信息仍然是困扰着Web用户的一个问题。尽管目前对Web信息抽取技术已进行了大量的研究工作,但现有的技术还不能让用户满意。XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准。 论文通过对Web信息抽取的分析和研究,针对目前存在的问题,提出一种实用的基于XML的Web信息抽取技术的解决方案,并对其中涉及的关键技术,如HTML到XML的转换、Web信息抽取方法等方面进行了深入分析和研究,期望为推进本领域的发展作一点贡献。 论文的主要内容包括如下几个方面: ①以XML技术为基础,分析了现今流行的几大类信息抽取技术以及各自应用的范畴。除此之外,还应用了数据结构中的常见算法——树的遍历算法来实现Web数据到XML数据的转换,简化了信息抽取工作,方便地形成XML文档,为处理XML文档、抽取出适当的数据作了铺垫。 ②分析了XML信息抽取的健壮性标准,将该标准运用于XML信息抽取的区域定位和映射合并中,并分别给出了符合健壮性标准的合适方法,从而提高了XML信息抽取的效率。 ③原型系统的实现。根据上述两点的研究结果、结合信息抽取技术、XML技术和Visual Studio.NET技术,提供了一个基于XML的Web信息抽取原型系统,具有良好的可移植性和适应性。 综上所述,本文针对Web信息抽取从技术、标准、设计与实现等方面进行分析,并且实验证明了其可行性。所以,基于XML的Web信息抽取的设计与实现,具有一定的理论意义和实用价值,并为信息抽取的后期工作有一定的技术支持。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【引证文献】
中国期刊全文数据库 前1条
1 珠杰;罗潘;;基于HTML Parser的网页信息提取技术研究[J];西藏大学学报(自然科学版);2010年01期
中国硕士学位论文全文数据库 前2条
1 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
2 王花梅;海上试验场数据管理系统的原型设计与实现[D];国家海洋技术中心;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期
3 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
4 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
5 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 丁振凡;XML数据岛数据处理技术研究[J];计算机时代;2001年11期
8 蔡霞,张森,周宇;模式发现在Web抽取中的应用及设计[J];控制工程;2003年03期
9 刘云中,林亚平,陈治平;基于隐马尔可夫模型的文本信息抽取[J];系统仿真学报;2004年03期
10 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期
中国硕士学位论文全文数据库 前3条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
3 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 孙泽宇;赵国增;舒云星;;二叉树后序遍历的递归和非递归算法[J];安徽电气工程职业技术学院学报;2006年01期
2 潘洁珠;;一种高效的基于关系模型的树结构可视化管理方法[J];安徽教育学院学报;2006年06期
3 阚涛,程家兴,钱付兰,余澄丹;时间规划中D_时刻表的改进算法及应用[J];安徽大学学报(自然科学版);2005年05期
4 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
5 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
6 杨波;张立娜;;基于C#正则表达式的农业文献管理系统的研究与应用[J];安徽农业科学;2012年05期
7 方群;等距随机抽样算法在电脑派位中的应用[J];安徽师范大学学报(自然科学版);2002年03期
8 郭芳;三种三叉树存储结构的比较[J];安康师专学报;1999年01期
9 陈福,梁春豪,张敬宗,史广军;救灾车辆运行状态监控系统的建立[J];安全;2002年01期
10 陈朋;后序遍历二叉树的递归和非递归算法[J];安庆师范学院学报(自然科学版);2005年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 袁媛;李远红;王敏;;文档签批和审核模块的设计与实现[A];全国冶金自动化信息网2012年年会论文集[C];2012年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈珠兰;;Java与XML结合应用[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
6 胡学钢;张晶;周红鹃;张玉红;王德兴;;数据结构实践教学体系设计[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
9 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 唐玲娜;唐雪飞;叶昌伟;;动态规划算法正序实现及其改进[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
4 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 王宝亮;基于H.264的多视点立体视频关键技术研究[D];天津大学;2010年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 李楷;船体生命周期建模与管理关键技术研究[D];大连理工大学;2011年
10 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 王强;基于演示编程的遥感图像元数据提取方法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
7 谷梅檀;检察院案件审讯监录管理系统的研究与设计[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 黄孝;;NET框架下的XML文档解析技术浅析[J];池州师专学报;2006年03期
3 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
4 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
5 刘海行,潘增弟,于卫东;上海示范区卫星遥感海洋环境监测系统[J];海洋科学进展;2002年04期
6 王项南;吴迪;周毅;高艳波;;国内外海上试验场建设现状与比较分析[J];海洋技术;2010年02期
7 郭俊文;衡星辰;邵利平;覃征;田磊;王妮;;一种基于XML文档聚类的XML近似查询算法[J];计算机工程;2006年15期
8 珠杰;欧珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];计算机工程;2008年24期
9 魏东平;宗德君;孙华国;;基于DTD的XML索引查询技术[J];计算机工程;2009年18期
10 陈国胜;何宗明;;基于XML技术的Word文档录入及格式检测系统设计[J];计算机时代;2009年04期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前4条
1 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
2 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
3 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 杨猛;基于OPeNDAP协议的海洋数据文件共享平台设计与实现[D];中国海洋大学;2011年
2 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
3 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
4 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
5 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
6 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
7 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
8 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
9 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
10 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
【二级引证文献】
中国期刊全文数据库 前2条
1 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
2 朱雪莲;;专用Web信息收集系统的设计和实现[J];煤炭技术;2011年08期
中国硕士学位论文全文数据库 前3条
1 曹晓峰;Web源代码获取与分析工具的设计与实现[D];复旦大学;2012年
2 康有淞;网络商品信息搜索与抽取技术应用研究[D];河北工业大学;2012年
3 刘冉;基于搜索引擎的邮箱地址自动提取系统开发[D];浙江理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
3 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
4 李青山,陈平;一种基于内容的HTML到XML转换策略[J];计算机工程与应用;2001年09期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
7 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
8 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
9 孟小峰,王海燕,谷明哲,王静;XWIS中基于预定义模式的包装器[J];计算机应用;2001年09期
10 王庆一,王继成,周源远,袁春风;多信息块Web页面的信息抽取[J];计算机应用研究;2002年10期
【相似文献】
中国期刊全文数据库 前6条
1 刘爽;;信息抽取技术及其在数字图书馆中的应用前景分析[J];现代情报;2006年11期
2 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
3 龙丽;庞弘燊;;国外Web信息抽取研究综述[J];图书馆学刊;2008年05期
4 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
5 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
6 田学东;李树成;;WEB主题检索的性能优化设计[J];计算机工程与应用;2006年04期
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026