收藏本站
《西安电子科技大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

信息集成系统中面向领域的Web信息抽取研究

刘辉  
【摘要】: 互联网上信息爆炸,如何准确、快速地检索出所需的信息以及更有效的利用这些信息,成为亟待解决的问题。在信息集成系统IIS(Information Integration System)中,如何整合各种异质的Web数据源并对上层应用提供统一的接口,为系统提供了最广泛、最庞大和实时的数据,是Web信息抽取系统必须解决的问题。 本文研究的重点包括Web信息抽取规则和抽取系统框架两部分,提出并实现了面向领域的信息抽取框架,对Web页面自适应地采用DOM和NLP的方法进行抽取。Wrapper的核心是抽取规则,即源映射目标模式的描述。本文提出的基于DOM映射的信息抽取方法,采用标准的XML技术操纵Web页面,通过归纳学习获取抽取规则,执行规则解释引擎获取抽取结果。对于非数据导向型的Web页面,引入NLP领域相关理论,结合Web页面标签的特点,将数据源转化为分词/分类处理,采用匹配触发的模式,在触发事件中计算语义距离来确定所需抽取的信息项。基于NLP的抽取方法弥补DOM映射方法的不足。在系统中对数据源进行预处理,利用信息熵检测并提取粗糙信息块。底层采用领域本体文件描述领域信息,映射于上层的抽取基本决策信息,以便于领域的切换。抽取结果存放于数据库中,并提供抽取的本体库,以供信息集成系统中其它模块使用。 通过领域内的Web页面抽取试验,抽取结果验证了抽取算法和系统框架的有效性和可用性,具有可扩展研究和商业应用前景。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前4条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
3 孟小峰;Web信息集成技术研究[J];计算机应用与软件;2003年11期
4 孟小峰,周龙骧,王珊;数据库技术发展趋势[J];软件学报;2004年12期
【共引文献】
中国期刊全文数据库 前10条
1 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 刘玫瑾;;体育人才数据库的设计与应用[J];办公自动化;2008年22期
4 郭忠伟;桑殿伟;郑华利;李洪峰;;军用文书自动生成中表层实现的概率模型[J];兵工自动化;2010年11期
5 郭庆琳,樊孝忠;知识信息搜索和获取技术的研究[J];北京工业大学学报;2003年04期
6 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
7 方丽英;王普;闫健卓;;面向语义异构的信息集成系统查询处理方案[J];北京工业大学学报;2007年08期
8 严爱军;柴天佑;高学金;王普;;燃烧过程空燃比的智能控制方法[J];北京工业大学学报;2008年03期
9 方丽英;闫健卓;王普;刘宇辉;;面向数据集成的基于规则的自动语义转换[J];北京工业大学学报;2008年03期
10 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
6 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
8 毛雪岷;张兄利;;基于Ontology的面向对象数据库模型研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 赵亮;面向位置服务的移动对象并发查询处理技术[D];国防科学技术大学;2010年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 李康荣;空间地理数据剖分网络协议研究[D];成都理工大学;2011年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 侯东风;流式数据多维建模与查询关键技术研究[D];国防科学技术大学;2010年
10 马立山;水信息技术在城市雨洪系统中的应用研究[D];天津大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 程妍妍;基于嵌套Spreadsheet和数据流的多模态的Mashup应用构造[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 杨建英;基于P2P和VNC的测井解释协同平台的研究与实现[D];山东科技大学;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
8 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
9 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁治明,孟小峰,白芸,丁锐;基于关系数据库的位置相关查询处理[J];计算机研究与发展;2004年03期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 孟小峰;Web信息集成技术研究[J];计算机应用与软件;2003年11期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
6 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
7 都云程,卢献华;中文搜索引擎现状与展望[J];中文信息学报;1999年03期
8 杨文清,黄宜华,张福炎;中文Web文档库全文检索技术研究与实现[J];中文信息学报;1999年04期
9 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
10 王淼;单汉字标引技术的改进研究[J];现代图书情报技术;1997年02期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 李洋;栾吉华;;一种新的Web信息抽取方法研究[J];科技资讯;2007年35期
2 张清军,朱才连;基于主动学习的Web页面信息抽取[J];情报学报;2004年06期
3 李剑波;李小华;董树明;杨科华;;一种基于XML的Web信息抽取方法[J];情报杂志;2006年08期
4 孟宪福,狄慧;基于Agent和XML的Web页面信息抽取研究与设计[J];计算机工程与设计;2004年08期
5 扬抒;陈尚安;武刚;;一种基于自动WEB数据抽取生成黄页的方法[J];微计算机信息;2010年33期
6 胡国晴;李建华;;一种自动抽取Web信息方法的设计与实现[J];计算机与现代化;2009年01期
7 李洋;;基于Web的信息抽取研究[J];吉林工程技术师范学院学报;2007年12期
8 蔡俊杰;孙建伶;董金祥;;建立Web信息集成系统[J];计算机科学;2001年12期
9 谢芳;;集成系统中信息集成的关键技术[J];科技广场;2006年08期
10 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 李红燕;唐世渭;杨冬青;;一个面向特定领域的信息集成系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 商超;李建中;何震瀛;;信息集成系统中HTML2XML的研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 赵文兵;廖湖声;郭振英;;面向GML的地理信息集成系统研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
5 蔡俊杰;孙建伶;董金祥;;Aoede:一个Web信息集成系统的设计和实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 刘君强;彭智勇;杨先娣;李旭晖;;一个基于对象代理模型的生物信息集成系统[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 陈涛;肖任贤;罗贤海;;基于WEB的全自动液压压砖机CAD/CAE信息集成系统的研究[A];中国硅酸盐学会陶瓷分会2003年学术年会论文集[C];2003年
8 李平;王富章;;关于城市轨道交通信息集成系统的研究[A];企业应用集成系统与技术学术研究会论文集[C];2006年
9 廉成洋;毛宇光;;一种基于二叉树的HTML到XML的转换方法研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 苏绍清;苑钧宏;;信息集成系统在炼油厂的实施[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
中国重要报纸全文数据库 前10条
1 福宣;福建炼化信息集成系统投用[N];中国石化报;2000年
2 实习生 邵珍珍 本报记者张显峰;信息集成系统:给企业造个“大脑”[N];科技日报;2005年
3 罗瑶 李培;机场安检信息集成系统简介[N];中国民航报;2007年
4 特约记者赵金波;四川石化启动企业管理信息集成系统[N];中国石油报;2010年
5 哈尔滨工业大学 王宏志;借XML高效管理数据之道[N];中国计算机报;2007年
6 罗瑶;以先进技术确保航空安全构建和谐空港[N];中国民航报;2007年
7 本报记者 王广伟;“外包”商机[N];河南日报;2006年
8 李立红;承钢铁路信息管理系统投入运行[N];中国冶金报;2007年
9 课题组成员 武予鲁 翟源涛 马跃强 贺治强 杨随木 陈华振 刘建中 任树明 张轶 牛军党;基于信息集成系统的煤矿责任成本管理[N];中国煤炭报;2010年
10 记者 李建新;大地化工裁600个高危岗位[N];宁夏日报;2009年
中国博士学位论文全文数据库 前10条
1 洪荣晶;客车车身数字化设计平台关键技术研究[D];东南大学;2006年
2 陈应显;矿山三维空间信息集成系统及其应用研究[D];辽宁工程技术大学;2009年
3 王宏志;XML数据查询处理技术的研究[D];哈尔滨工业大学;2008年
4 王小刚;异构信息集成环境中基于语义的查询研究[D];华中科技大学;2006年
5 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
6 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
7 周建芳;基于上下文仲裁的语义信息集成方法研究[D];华中科技大学;2009年
8 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
9 刘诏书;管控信息集成关键技术及其在内饰布企业中的应用研究[D];武汉理工大学;2007年
10 陶佳;电力企业生产信息集成理论及应用研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘辉;信息集成系统中面向领域的Web信息抽取研究[D];西安电子科技大学;2008年
2 江佳;信息集成中Web信息抽取技术的研究[D];西安电子科技大学;2007年
3 肖烽;基于XML和XSLT的Web信息抽取研究与设计[D];电子科技大学;2008年
4 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
5 郭银蕊;基于遗传算法的Web信息抽取技术[D];大连海事大学;2009年
6 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
7 叶霞;产品数据管理系统设计与开发[D];南京理工大学;2002年
8 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
9 胡鹏飞;基于多Agent的信息集成系统的研究[D];华北电力大学(北京);2011年
10 张宏;多控制系统数据集成技术的研究及其应用[D];南京工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026