收藏本站
《天津工业大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义和版式的网上人物信息提取

燕敏  
【摘要】: 随着Internet/Web技术的快速普及和迅猛发展,Web上的数据容量空前增长,成为世界上最大的数据源。但对某一用户而言,真正有用的信息却是少量的。这就是所谓的Rich Data Poor Information问题。由此产生了Web信息抽取技术,现已成为当前研究热点之一。 本文采用基于规则和统计相结合的信息抽取算法,同时利用本体(ontology)思想,对需要抽取的数据进行描述,进而再生成规则,开发了人物信息抽取系统PeopleInfoAbstract,实现了半结构化人物信息的自动提取。 该系统分为网页采集模块、网页预处理模块、信息抽取模块、检索模块四大模块。网页采集模块首先界定了本文的研究对象,对研究对象进行定义和分类,接着从范围、数量、原则、方法四个方面介绍了采集标准。网页预处理模块通过将HTML文档解析成DOM树,实现了两种预处理方法:提取网页正文区和去掉所有HTML标签。该模块采用海量科技开发的版式分析来得到网页的正文区。信息抽取模块实现了半结构化人物信息的自动提取。通过在大语料中对人物的字段名(即人物属性名)进行程序统计,创建了一个字段名词典,该词典共收录了4624个有效字段名。通过对提取出的字段名采用查字典的方式进行有效性检验,当字段名有效时再提取其对应的字段值,否则不提取,大大提高了信息提取的准确率。该算法将字段值分为短字段值和长字段值,采用不同的提取规则。对于字段值的有效性检验,本文采用本体(ontology)思想,对需要抽取的字段值数据进行特征描述,生成有效性检验规则,进而来判断字段值的有效性。检索模块实现了按姓名对抽取到的人物信息进行查询和浏览。 通过对系统测试,平均准确率和召回率达到90%以上,并且适应性良好。
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.092

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 李洋;栾吉华;;一种新的Web信息抽取方法研究[J];科技资讯;2007年35期
2 张清军,朱才连;基于主动学习的Web页面信息抽取[J];情报学报;2004年06期
3 李剑波;李小华;董树明;杨科华;;一种基于XML的Web信息抽取方法[J];情报杂志;2006年08期
4 孟宪福,狄慧;基于Agent和XML的Web页面信息抽取研究与设计[J];计算机工程与设计;2004年08期
5 扬抒;陈尚安;武刚;;一种基于自动WEB数据抽取生成黄页的方法[J];微计算机信息;2010年33期
6 胡国晴;李建华;;一种自动抽取Web信息方法的设计与实现[J];计算机与现代化;2009年01期
7 李洋;;基于Web的信息抽取研究[J];吉林工程技术师范学院学报;2007年12期
8 霍滨焱;;最小节点信息树抽取规则及可视化生成方法[J];应用科技;2009年07期
9 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
10 孟小峰;Web信息集成技术研究[J];计算机应用与软件;2003年11期
中国重要会议论文全文数据库 前10条
1 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
2 廉成洋;毛宇光;;一种基于二叉树的HTML到XML的转换方法研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 李国华;昝红英;;基于语句相似度的网页标题抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 钱防震;杜小勇;;DLPers的资源整合[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
8 孙建国;;成像原理、成像过程及偏移像场的动力学特性[A];中国地球物理学会第二十届年会论文集[C];2004年
9 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 杨文柱;徐林昊;郝亚南;陈少飞;李天柱;;个性化的智能Web查询助手的设计与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前6条
1 四川大学计算机学院 陈华英;组建基于 Web 方式的数据仓库[N];网络世界;2000年
2 陈伟秋 邱创泓 左梁;广州全力实施“阳光下的采购”[N];中国企业报;2003年
3 王艳辉;河南网上抽取专家[N];政府采购信息报;2007年
4 公安部治安管理局;强化培训 以考促练[N];人民公安报;2008年
5 卢新峰;山东日照多举措规范有形建筑市场[N];中国建设报;2008年
6 本报记者 王迎春 实习生 李晓霞;广州谁当评委电脑说了算[N];中国财经报;2002年
中国博士学位论文全文数据库 前6条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
2 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
3 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
4 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
5 李效东;自治异构数据源的集成查询处理[D];中国科学院研究生院(软件研究所);2002年
6 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘辉;信息集成系统中面向领域的Web信息抽取研究[D];西安电子科技大学;2008年
2 肖烽;基于XML和XSLT的Web信息抽取研究与设计[D];电子科技大学;2008年
3 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
4 郭银蕊;基于遗传算法的Web信息抽取技术[D];大连海事大学;2009年
5 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
6 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
7 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
8 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年
9 何恒昌;Web挖掘中信息采集技术研究与实现[D];北京物资学院;2010年
10 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026