收藏本站
《浙江大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

面向中文网页的信息抽取关键技术研究与实现

陈劲  
【摘要】:随着互联网技术的发展,网络中web页面的数量规模越来越庞大,在这些海量的web页面中,包含着许多用户需要的信息。通常情况下,能够为用户所直接使用的信息都是以结构化的形式组织,而web页面中用户需要的信息通常都包含在大量的页面无结构化或半结构化文本中,因此用户难以直接利用web页面的信息。为了更好的利用web页面中包含的信息,就需要从web页面中抽取出用户所需要的信息,并将其以结构化的形式存储。 网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本(无结构化文本),同时也包含如表格、列表等半结构化文本。本文主要针对从中文网页中抽取信息进行研究,采用一种结合网页段落筛选和数据集成的技术同时从网页自由文本和半结构化文本中抽取信息的综合方法进行中文网页信息抽取。该方法采用启发式规则从网页中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、基于规则的命名实体识别技术等自然语言处理技术和语义抽取规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息转换为规范化数据以解决数据冲突从而实现数据集成。本文也将上述方法应用于针对网页中企业注册信息抽取的系统实现并进行相关实验,并对其抽取效果进行评估,实验数据表明该方法从网页中抽取信息的平均准确率和查全率分别为93.41%和87.44%,并且该方法信息抽取的F-value值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;TP393.092

免费申请
【参考文献】
中国期刊全文数据库 前7条
1 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 杨先娣;彭智勇;刘君强;李旭辉;;信息集成研究综述[J];计算机科学;2006年07期
4 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
5 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
6 沈嘉懿;李芳;徐飞玉;Hans Uszkoreit;;中文组织机构名称与简称的识别[J];中文信息学报;2007年06期
7 潘泉,于昕,程咏梅,张洪才;信息融合理论的基本方法与进展[J];自动化学报;2003年04期
中国硕士学位论文全文数据库 前2条
1 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
2 严小华;数据集成中基于本体的语义异构消除研究[D];西南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 易波;文天柱;张原;;生理学信息在基因标签提取中的应用[J];兵工自动化;2011年07期
2 高鲁,宋辉,高岩,赵明;军用包装信息规范化管理研究[J];包装工程;2005年03期
3 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
4 赵娟;孙澎涛;吴粉侠;冯延琴;;基于像素级的图像融合[J];长春工程学院学报(自然科学版);2011年02期
5 王媛彬;;多传感器信息融合概述及其应用[J];传感器世界;2010年12期
6 胡圣武;;空间数据融合的研究现状及其问题分析[J];测绘通报;2008年02期
7 吴义虎;喻丹;何霞;郭文莲;;一种基于信息融合的跟随驾驶行为协同仿真模型[J];交通科学与工程;2009年01期
8 景涛;;基于信息融合技术的故障诊断方法综述[J];四川兵工学报;2009年07期
9 万洪容;陈怀新;;基于多源信息融合的海上目标判证仿真系统[J];电讯技术;2007年03期
10 苏威积,赵海,苏羽;《周易》与信息融合一致性的研究[J];东北大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 韩军伟;陆俊;;信息融合的边缘保持图像滤波方法[A];图像图形技术研究与应用(2010)[C];2010年
2 张二梅;刘辰;杨正球;;基于HTMLParser自动生成测试用例的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 韩盛;李书杰;陈宗海;;移动机器人导航的信息融合技术分析与展望[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
6 司刚全;曹晖;张彦斌;贾立新;;基于信息融合技术的双层优化控制策略在火电厂制粉系统中的应用[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
7 司刚全;曹晖;张彦斌;马西奎;;基于多源信息融合技术的复杂工业过程监控系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
8 马福恒;向衍;吴中如;;基于修正证据理论的土石坝渗流警兆辨识研究[A];水工渗流研究与应用进展——第五届全国水利工程渗流学术研讨会论文集[C];2006年
9 张鹏;李学仁;景博;杜军;张建业;;多源信息融合技术在航空发动机故障诊断中的应用研究[A];中国航空学会控制与应用第十二届学术年会论文集[C];2006年
10 温华洋;徐光清;华连生;汪腊宝;胡雯;;“双套站”数据处理方法探索[A];第28届中国气象学会年会——S1第四届气象综合探测技术研讨会[C];2011年
中国博士学位论文全文数据库 前10条
1 张涛;GPS/SINS超紧密组合导航系统的关键技术研究[D];哈尔滨工程大学;2010年
2 吕云飞;甚低频矢量水听器潜标探测系统关键技术研究[D];哈尔滨工程大学;2010年
3 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
4 蒋鼎国;无线传感器网络农业信息监控系统设计与数据融合研究[D];江南大学;2010年
5 王志颖;复杂装备智能机内测试技术研究[D];电子科技大学;2011年
6 丁传炳;制导弹箭弹道测量及弹道重构技术研究[D];南京理工大学;2011年
7 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
8 邓鹏程;基于数据的铅锌熔炼过程自适应在线监控与故障诊断[D];中南大学;2011年
9 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
10 姚琛;基于信息提取计算的动态交通数据分析及应用[D];西南交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 焉杰;多传感器时滞系统信息融合及其仿真[D];山东科技大学;2010年
3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
4 王君竹;工业控制数据管理系统的设计与开发[D];大连理工大学;2010年
5 王玉波;基于基本概率赋值调整的数据融合方法及应用[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 付东飞;带乘性噪声广义系统多传感器信息融合状态估计算法研究[D];中国海洋大学;2010年
8 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 张祥明;基于信息融合的矿井提升机健康诊断研究[D];河南理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
6 陈跃国;王京春;;数据集成综述[J];计算机科学;2004年05期
7 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
8 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
9 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
10 周建芳;徐海银;卢正鼎;;信息集成中语义异构问题研究[J];计算机应用研究;2008年08期
中国硕士学位论文全文数据库 前4条
1 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
2 史军强;WEB信息集成技术研究[D];电子科技大学;2005年
3 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
4 李亚红;基于语义的信息集成方法研究[D];西北大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
2 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
3 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
4 余丰;朱东华;;信息抽取技术在竞争情报研究中的应用[J];;2006年03期
5 赵金仿;赵艳;缪建明;;网页信息抽取及其自动文本分类的实现[J];计算机技术与发展;2008年10期
6 郭浩;刘伟;段富;;基于Web的语料自动采集技术研究[J];太原理工大学学报;2008年S1期
7 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
8 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
9 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
10 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 陈翔;趋势科技:近十万中文网页遭入侵[N];中国计算机报;2008年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 洪达;雅虎中国尝鲜“宝贝鱼”[N];民营经济报;2006年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026