收藏本站
《大连理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Agent的Web信息抽取研究

狄慧  
【摘要】:随着万维网的迅速发展,近十年来,Web信息抽取日益成为学术界和商业领域的一个研究热点。Web信息抽取的目标是,从多个异质的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化的格式表示。Web信息抽取是Web数据挖掘、机器翻译等应用的基础。Web信息抽取的主要困难是由于万维网上的Web页面固有的数量巨大、异质且动态更新的特点而带来的复杂性、可扩展性、适应性问题。 本文提出了一个基于Agent技术的Web信息抽取系统。它是一个多Agent系统,主要由三个Agent和四个知识库组成。知识库是系统运行的基础,本文采用XML表示Web信息抽取所用知识和结果数据。另外,XML在本文中还用于Agent之间的通信。系统中的Agent包括用户接口Agent、Web页面获取Agent和信息抽取Agent。各个Agent有自己的子目标、功能和行为,可以自主运行,同时Agent之间通过协调和合作,共同为准确高效地进行Web信息抽取的总目标服务。采用这种结构简化了问题的复杂性。 系统的三个Agent中,信息抽取Agent是核心,主要负责学习抽取规则和运用抽取规则进行信息抽取。其中借鉴了现有的已被广泛使用的包装器归纳法的思想和DOM树方法。 系统的抽取规则从信息在特定领域的语义特征和页面格式特征两方面定义,使抽取规则具有一定程度的适应性和可重用性。由于Web页面获取Agent具有主动感知Web页面更新、并通知信息抽取Agent调整抽取规则的能力,更进一步增强了系统的适应性。此外,通过用户和Agent配合、半自动化学习抽取规则,获得的样本有代表性,且学习过程较简单。因此,本文是对Web信息抽取领域的进一步发展以及Agent技术的应用的有益研究。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393

【引证文献】
中国期刊全文数据库 前1条
1 罗文;韩永国;;Web教学资源信息抽取技术研究[J];微计算机信息;2009年30期
中国硕士学位论文全文数据库 前6条
1 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
2 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
3 刘洋;Web教学资源抽取技术及其应用研究[D];东北师范大学;2007年
4 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
5 肖建鹏;基于SVM的Web信息抽取技术研究[D];解放军信息工程大学;2008年
6 陈立娜;基于本体的旅游领域Web信息抽取[D];广西师范大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 崔旖娜;王苏岩;李宏男;;基于BP神经网络时间序列方法的辽宁省建筑业经济技术指标预测[J];四川建筑科学研究;2008年02期
2 夏年喜;;逻辑学、语言学与信息科学——论自然语言逻辑的学科性质[J];安徽大学学报;2006年02期
3 李海鲲,宗仁鹤;基于不确定推理模型的中医诊断专家系统的研制[J];安徽教育学院学报;2004年06期
4 施进平;廖力清;;配电网馈线终端的智能化技术[J];安徽电力;2007年03期
5 王晓璐;刘海芳;王凡;;基于模糊专家系统的鱼疾病诊断方法[J];安徽农业科学;2008年09期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 辛惠娟;陈素羡;张少轩;戴庆辉;;基于JSP的网络诊断型专家系统开发平台[J];保定职业技术学院;2005年01期
8 承向军,杨肇夏;基于多智能体技术的城市交通控制系统的探讨[J];北方交通大学学报;2002年05期
9 魏红昀,邓忠华,魏晴昀;PID专家控制器在温控系统中的应用[J];兵工自动化;2004年04期
10 李凤周;;电力网倒闸操作票专家系统[J];兵工自动化;2006年09期
中国重要会议论文全文数据库 前10条
1 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
2 姜帆;潘方胜;李红云;;一个基于FCR算法的推理机的设计[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
3 王翠茹;辛锐;韩晓娜;;基于本体的电网调度系统知识表示的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 黄凤华;王玲;;先进控制技术的主要控制方法综述[A];第十九届电工理论学术年会论文集[C];2007年
5 汪孟昆;王玮;;舰艇编队武器目标分配的资源冲突消解研究[A];2006中国控制与决策学术年会论文集[C];2006年
6 王兆明;;基于扩展UML在面向Agent系统分析模型的研究[A];2006中国控制与决策学术年会论文集[C];2006年
7 杨云;;金融自助设备产品设计专家系统的建立与运用[A];战略性新兴产业的培育和发展——首届云南省科协学术年会论文集[C];2011年
8 戚国强;魏晓莉;张长利;钮志勇;;利用改进BP网络预测初产母牛305天产奶量模型的实现[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第四分册[C];2005年
9 白二雷;许金余;;基于内嵌CLIPS的坑道工程战时抢修预案决策系统设计[A];第一届全国工程安全与防护学术会议论文集[C];2008年
10 李国华;昝红英;;基于语句相似度的网页标题抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 陈得宇;基于MAS的智能电压控制系统研究[D];哈尔滨工程大学;2010年
2 丁和艳;铝合金车轮CNC机械抛光工艺优化的基础研究[D];华中科技大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 陶勇;知识辅助的SAR图像目标特性分析与识别研究[D];国防科学技术大学;2010年
5 马鑫;基于协同机制和智能算法的多代理系统研究及应用[D];吉林大学;2011年
6 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
7 田瑞;应急交通保障辅助决策支持系统相关模型与方法研究[D];吉林大学;2011年
8 孙丽君;物流配送干扰管理问题的知识表示与建模方法[D];大连理工大学;2011年
9 陈世林;协同式空中交通流量管理关键技术及若干算法研究[D];南京航空航天大学;2009年
10 陈幸开;碳纤维增强聚合物基复合材料拉挤工艺数值模拟与优化[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 高争;平煤十二矿突出案例专家咨询系统研究[D];河南理工大学;2010年
3 刘炎培;基于扩展OOPN业务流程建模及异常处理模型研究[D];南昌航空大学;2010年
4 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
5 蒲锰;非侵入式矿井提升机PLC电控系统实时故障诊断方法的研究[D];山东科技大学;2010年
6 常春艳;矿山土地复垦方案论证管理系统研究[D];山东农业大学;2010年
7 张冲;基于CBR与RBR融合推理的林火扑救方案生成系统研究[D];哈尔滨工程大学;2010年
8 王东阳;多智能体调度优化算法研究[D];哈尔滨工程大学;2010年
9 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
10 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期
4 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
5 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
6 郝亚南,陈少飞,李天柱;数据交换中的数据格式转换[J];河北大学学报(自然科学版);2003年02期
7 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
8 史忠植,董明楷,蒋运承,张海俊;语义Web的逻辑基础[J];中国科学E辑:信息科学;2004年10期
9 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
10 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期
中国博士学位论文全文数据库 前2条
1 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前8条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
4 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
5 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
6 马腾;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2006年
7 林琳;基于ontology的Web表格内容抽取的研究与实现[D];电子科技大学;2006年
8 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【二级引证文献】
中国期刊全文数据库 前5条
1 林昌平;郑皎凌;;基于DOM规范的网页分析技术研究[J];成都信息工程学院学报;2007年S1期
2 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
3 胡立明;;因特网信息抓取的研究与探讨[J];黑龙江科技信息;2010年09期
4 邓箴;;基于二维关联边条件随机场的Web信息抽取[J];价值工程;2010年34期
5 珠杰;罗潘;;基于HTML Parser的网页信息提取技术研究[J];西藏大学学报(自然科学版);2010年01期
中国博士学位论文全文数据库 前1条
1 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
2 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
3 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
4 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
5 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
6 袁应成;基于用法属性的现代汉语介词短语边界识别研究[D];郑州大学;2011年
7 杨方蓉;Web信息内容变化检测技术研究与实现[D];西南交通大学;2011年
8 周炘;面向电子商务网站的深度搜索与信息抽取研究[D];江西师范大学;2011年
9 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
10 吴华;基于SOA架构的法院档案管理信息系统研究[D];天津大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 钱君;段隆振;熊必成;张和江;;基于KPS的Web信息抽取MAS模型的研究[J];计算机与现代化;2007年09期
2 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
3 李洋;栾吉华;;一种新的Web信息抽取方法研究[J];科技资讯;2007年35期
4 张清军,朱才连;基于主动学习的Web页面信息抽取[J];情报学报;2004年06期
5 李剑波;李小华;董树明;杨科华;;一种基于XML的Web信息抽取方法[J];情报杂志;2006年08期
6 扬抒;陈尚安;武刚;;一种基于自动WEB数据抽取生成黄页的方法[J];微计算机信息;2010年33期
7 胡国晴;李建华;;一种自动抽取Web信息方法的设计与实现[J];计算机与现代化;2009年01期
8 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期
9 潘惠勇,高丽平,薛惠忠;基于逻辑定义的Web信息抽取与集成[J];中原工学院学报;2005年02期
10 李洋;;基于Web的信息抽取研究[J];吉林工程技术师范学院学报;2007年12期
中国重要会议论文全文数据库 前10条
1 ;A Note on Two-agent Single-machine Scheduling Problem with Deteriorating Jobs[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 盛惠强;;基于内容和移动Agent的网络计费系统的设计[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 杨海明;程龙;赵佛晓;徐娟;;基于分布式Agent的网格任务调度模型研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 颜宇甲;程国建;毛书君;;基于多Agent系统的生态系统建模和仿真[A];第十二届中国青年信息与管理学者大会论文集[C];2010年
5 李志凌;焦丽萍;;一种改进型Agent体系结构研究[A];第七届中国通信学会学术年会论文集[C];2010年
6 郭瑞鹏;王永军;董平;;基于Agent分布式国民经济动员决策支持系统研究[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
7 陈红英;;基于Agent的GIS服务共享系统的研究[A];第二十七届中国控制会议论文集[C];2008年
8 ;Coordinated Control of Second-Order Multi-Agent Systems With Quantized-Observer[A];中国自动化学会控制理论专业委员会D卷[C];2011年
9 高春蓉;贲可荣;;基于Agent的行为模型在通信对抗仿真中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 赫连佳鹏;景旭;张影;;Agent-Based的神经网络仿真设计在经济系统中的应用[A];'2002系统仿真技术及其应用学术论文集(第四卷)[C];2002年
中国重要报纸全文数据库 前10条
1 Hotsky;昨日重现[N];中国电脑教育报;2003年
2 王宏;从我为网活 到网为我用[N];中国计算机报;2003年
3 河北 周建军;用Agent步入新闻组[N];电脑报;2001年
4 湖南 何锋;高级系统代理Advanced System Agent[N];电脑报;2001年
5 ;无需等待的自防御系统[N];中国计算机报;2004年
6 熊智宏 刘永纯;AIA大厦 何以重振昔日雄风[N];中国邮政报;2000年
7 饶慧敏;天下互联将入全球市场[N];中国国门时报;2004年
8 逍遥浪子;为网页添加动画精灵[N];电脑报;2003年
9 张维明 邓苏 肖卫东 汤大权;应对信息爆炸的挑战[N];计算机世界;2001年
10 康祥顺;给网页添彩[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前10条
1 焦俊;基于多Agent系统的智能车辆自主行驶控制研究[D];合肥工业大学;2010年
2 贺利坚;多Agent系统中信任和信誉模型的研究[D];北京交通大学;2011年
3 高嘉爽;基于Agent及FEA的焊接加工过程协同设计系统研究[D];哈尔滨工业大学;2009年
4 赵欣培;一种基于Agent的软件过程建模方法研究[D];中国科学院研究生院(软件研究所);2005年
5 王文玺;基于多Agent系统的自主式地面车辆关键技术研究[D];西南交通大学;2010年
6 黄红兵;基于涌现视角的多Agent系统分析研究[D];国防科学技术大学;2009年
7 兰少华;多Agent技术及其应用研究[D];南京理工大学;2002年
8 赵剑冬;基于Agent的产业集群企业竞争模型与仿真研究[D];华南理工大学;2010年
9 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
10 马鑫;基于协同机制和智能算法的多代理系统研究及应用[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
2 钱君;基于KPS的Web信息抽取MAS模型的研究与设计[D];南昌大学;2007年
3 胡涛;基于多Agent的海洋数据采集与传输系统的研究[D];东华大学;2010年
4 顾陈琳;基于信任度模型的多Agent全局协调[D];南京航空航天大学;2010年
5 刘辉;信息集成系统中面向领域的Web信息抽取研究[D];西安电子科技大学;2008年
6 吴雪峰;基于Agent的易视监控审计系统设计及应用[D];南京理工大学;2010年
7 谢作坤;基于多Agent的车载信息管理系统[D];浙江工商大学;2010年
8 吕桃霞;基于Agent技术的网络安全审计模型研究与实现[D];山东师范大学;2011年
9 韩珍;驾驶员—车辆Agent微观换道行为的建模[D];中国科学技术大学;2011年
10 肖烽;基于XML和XSLT的Web信息抽取研究与设计[D];电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026