收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的自适应Web信息抽取方法研究

李传席  
【摘要】:互联网的快速发展产生了海量的信息,由于Web页面的多样性和异构性,对这些的信息进行检索和处理受到很大的限制,而Web信息抽取则致力于将这些信息转化成结构化的数据,满足垂直搜索引擎和数据挖掘等相关应用。同时,为了实现语义网的目标,赋予Web意义,需要对Web上的内容进行标注,基于本体的信息抽取可以产生用于语义网的元数据标注信息,将Web信息转化成机器方便处理的数据,即语义网有效的数据。 在农业领域,互联网上积累了丰富的农业相关信息资源,包括供求信息、价格信息、农业技术、市场动态、农业新闻、农业企业、农业视频等,但缺少一致的语义表达形式,很难充分发挥这些资源的作用。此外,由于农业领域相关用户自身知识结构水平的限制,在获取所需要的信息时更加困难,而农业垂直搜索引擎则可以弥补这方面的不足,实现异构分散数据的集成,通过构建满足用户需求的专业搜索引擎,解决“三农”用户在面对海量农业Web资源时的信息获取瓶颈问题。本文以研究Web环境下基于本体的信息抽取方法为基础,为农业垂直搜索引擎(中国搜农)和农业数据挖掘应用提供有效的数据支持,服务于国家的农业信息化建设为目标,开展了相关的研究。论文的主要工作内容总结如下: (1)针对互联网上网页数据的开放性、异构性、演化性等特征,构建了一种基于本体的自适应Web信息抽取模型。模型采用模块化的结构搭建,实现抽取算法与领域本体知识之间的分离,以及模块功能的复用,方便系统功能的动态更新,减少信息抽取系统在跨领域移植时的开销。 (2)针对传统方法在构建本体时需要大量的人工开销和维护困难等问题,发挥Web资源的作用,提出了一种基于Web的无监督本体构建方法。该方法通过查询Web获取领域本体相关的资源,结合句法分析技术实现本体的学习,可以解决传统方法构建本体时语料库在规模上的限制,自适应Web知识的演化。以提出的方法为基础,构建了蛋白质交互关系本体。 (3)针对语义网和Linked Data的发展需求,实现网页的元数据标注和挖掘不同数据之间的关系,提出了一种基于本体的命名实体关系抽取方法。通过分析命名实体之间关系表达的语法结构和关系表达词,实现关系的抽取,实验采用生物文献公共语料库对算法进行了检验,抽取蛋白质相互作用关系,并取得了满意的效果。提出的算法对抽取的句子实行单遍遍历,实现适应Web规模的文本关系抽取时的计算效率问题。 (4)针对AJAX技术的广泛使用,而传统的爬虫无法获取、分析和处理这些内容,我们提出了一种基于领域本体的多记录型AJAX数据抽取模型。该模型可以有效的发现网贞中含有的动态AJAX内容,在领域本体的指导下,实现对数据的抽取和语义标注。实验以农产品供求和价格实体数据为例,验证了抽取方法的有效性。 (5)针对基于包装器或规则的方法在抽取单记录型HTML页而时,无法适应页而结构变化等不足,提出了一种采用统计学习方法实现的基于实体属性分类的单记录型Web页面信息抽取和标注模型。该模型对抽取内容的页面结构特征进行分析,通过构建相应的属性分类器识别页面中含有的实体属性,实现自适应页面结构的变化的实体抽取和标注。 (6)以基于本体的自适应Web信息抽取模型为基础,结合文中提出的信息抽取方法,实现了本体的自适应Web信息抽取平台。该平台包括两个子系统:一是面向农业领域的基于农业本体的自适应Web信息抽取子系统,应用于农业垂直搜索引擎-“中国搜农”和农业相关的数据挖掘应用;二是命名实体关系抽取原型子系统,为实现农业领域实用的关系抽取系统奠定了基础。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1;TP393.09

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 谭跃进,邓宏钟;复杂适应系统理论及其应用研究[J];系统工程;2001年05期
2 戴汝为,操龙兵;Internet——一个开放的复杂巨系统[J];中国科学E辑:技术科学;2003年04期
3 王儒敬;檀敬东;黄河;;一种复杂自适应搜索模型[J];模式识别与人工智能;2009年06期
4 钱学森,于景元,戴汝为;一个科学新领域——开放的复杂巨系统及其方法论[J];自然杂志;1990年01期
中国博士学位论文全文数据库 前2条
1 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
2 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 邓群钊;贾仁安;梁英培;;多层次多轮实地群决策法及其应用[J];安徽农业科学;2006年08期
2 杨朗;陈恩海;黄立飞;;系统科学在害虫管理中的应用[J];安徽农业科学;2009年21期
3 宋波,叶文虎;从增长和稳定的角度重新认识可持续发展的内涵[J];北京大学学报(哲学社会科学版);2004年04期
4 戴汝为;“人机结合”的大成智慧[J];北方工业大学学报;1996年03期
5 方芳;;金融复杂系统脆性理论在金融危机分析中的应用[J];北方经济;2011年06期
6 张江;李学伟;;认知模型与统一集[J];北京交通大学学报;2005年06期
7 梁为亮;赵金超;;武器装备综合集成的体系结构与建模[J];兵工自动化;2006年12期
8 李彦斌,李涛,张文泉;管理科学面临复杂性科学的挑战[J];北京航空航天大学学报(社会科学版);2004年02期
9 马蔼乃;论地理科学的发展[J];北京大学学报(自然科学版);1996年01期
10 王亮;卢永锦;;引用预见信息的人机耦合优化方法[J];北京航空航天大学学报;2008年04期
中国重要会议论文全文数据库 前10条
1 吴庆洲;;迎接中国城市营建史研究之春天[A];《营造》第五辑——第五届中国建筑史学国际研讨会会议论文集(上)[C];2010年
2 邓方;陈杰;陈文颉;朱琳;;元胞自动机及其在兵力推演中的建模与仿真[A];第二十六届中国控制会议论文集[C];2007年
3 王春生;吴敏;曹卫华;;基于集成预测模型与专家推理策略的铅锌烧结配料优化方法[A];第二十六届中国控制会议论文集[C];2007年
4 魏红英;黄石旺;;混沌理论的前沿性及其对公共行政的贡献[A];地方政府发展研究(第三辑)[C];2008年
5 赵德勇;刘建国;;基于复杂性科学的综合集成研讨厅研究现状与发展[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
6 李亚;李习彬;;共赢方法论——协调社会利益关系的系统方法论[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
7 刘怡君;唐锡晋;顾基发;;专家会商的方法支持与工具应用[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
8 王德光;胡宝清;覃开贤;;复杂性科学在喀斯特土地利用系统研究中的应用[A];发挥资源科技优势 保障西部创新发展——中国自然资源学会2011年学术年会论文集(上册)[C];2011年
9 李存金;;大规模科学技术工程复杂系统管理方法论研究[A];第十三届中国管理科学学术年会论文集[C];2011年
10 王阶;何庆勇;姚魁武;朱明军;马长生;叶勇;王永霞;林谦;衷敬柏;汤艳莉;熊兴江;荆鲁;农一兵;;以证候要素为内容的冠心病心绞痛中医疗效评价体系研究[A];2011年中华中医药学会心病分会学术年会暨北京中医药学会心血管病专业委员会年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 杨莉;基于可持续发展的我国电源结构优化研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
4 王劲松;复杂系统脆性理论及其在电力系统风险分析中的应用[D];哈尔滨工程大学;2010年
5 赵金宪;复杂系统脆性理论在煤矿生产系统脆性风险评价中的应用[D];哈尔滨工程大学;2010年
6 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
7 石云龙;基于CAS理论的地震紧急救援系统模型构建与模拟仿真[D];中国地质大学(北京);2010年
8 陶有德;可修复模型的系统分析[D];北京信息控制研究所;2010年
9 于群;电力系统大停电的自组织临界特性研究[D];中国电力科学研究院;2010年
10 罗国亮;灾害应对与中国政府治理方式变革研究[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 安军建;海洋船舶类复杂产品供应链协作机制研究[D];中国海洋大学;2010年
3 杨林;求解带性能约束圆集布局问题的启发式蚁群算法研究[D];湘潭大学;2010年
4 曹春苗;基于复杂网络的知识价值链建模及应用研究[D];中国海洋大学;2010年
5 张莉莉;青岛市突发公共事件应急管理研究[D];中国海洋大学;2010年
6 郝旭光;白车身装焊误差监控方法及技术的研究[D];沈阳理工大学;2010年
7 杨建红;基于密度的聚类算法研究[D];长春工业大学;2010年
8 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
9 赵业清;钢铁生产流程的系统动力学建模与动态仿真[D];昆明理工大学;2008年
10 周洋洋;云南高原山区农村公路养护技术研究[D];昆明理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓宏钟,谭跃进,迟妍;一种复杂系统研究方法——基于多智能体的整体建模仿真方法[J];系统工程;2000年04期
2 成思危;复杂科学与系统工程[J];管理科学学报;1999年02期
3 李宏亮,党岗,程华,金士尧;复杂自适应系统的描述及其分布仿真框架[J];计算机研究与发展;2002年10期
4 宁向东;经济学的实验方法及其应用[J];经济学动态;1997年12期
5 王儒敬;滕明贵;;一种用于空间对象属性预测的空间广义线性回归模型[J];模式识别与人工智能;2005年06期
6 操龙兵,戴汝为;综合集成研讨厅的软件体系结构[J];软件学报;2002年08期
7 张卫丰,徐宝文,周晓宇,管宇,许蕾;基于遗传算法的搜索引擎调度[J];微电子学与计算机;2001年04期
8 黄崑,赖茂生;Web信息检索技术及研究进展[J];现代图书情报技术;2004年05期
9 谭跃进,谭跃雄;复杂经济系统的空间动态建模方法[J];系统工程理论与实践;1997年10期
10 王儒敬;葛运健;滕明贵;张晓明;;基于粗集的空间对象分类学习算法[J];中国科学技术大学学报;2006年02期
【相似文献】
中国期刊全文数据库 前10条
1 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
2 卢红杰;;基于Web数据的信息抽取技术[J];兰台世界;2006年07期
3 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
4 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
5 秦振海;谭守标;徐超;;基于Web的表格信息抽取研究[J];计算机技术与发展;2010年02期
6 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
7 李姗;黄水源;;基于XML的WEB信息抽取模型设计[J];微计算机信息;2009年09期
8 熊惠荟;欧阳君;;基于模板法的网页英语试卷自动抽取技术的研究[J];计算机与数字工程;2009年04期
9 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
10 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
中国重要会议论文全文数据库 前10条
1 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
3 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
4 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
5 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
6 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
7 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
8 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
9 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
10 张洪恩;基于语义的Web信息抽取方法的研究与应用[D];重庆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026