收藏本站
收藏 | 论文排版

基于规则的百科人物属性抽取算法的研究

李红亮  
【摘要】:目前互联网已经融入了人们的生活,互联网的规模更是迅猛的扩张,网络上的数据也以几何级数的速度增长,从这些海量文本中获取有用的信息并将其转化为计算机能够识别和处理的结构化数据的研究是目前的一个重要研究课题。文本信息抽取是指从一篇或一段文本中抽取出指定的信息(比如实体、实体关系等),并将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理的过程。 本文研究的是人物领域中实体关系抽取任务之一,即人物属性抽取。本文以百度百科人物网页为研究源数据,对百科人物属性信息抽取进行了研究。根据实际需要本文重点研究了以下几个问题。 首先,本文实现了多线程网络爬虫,下载百科网页数据;然后通过分析百科网页的特征,利用正则表达式的方法实现网页内容的解析。 其次,根据百科网页的开放分类特性,每个百科网页上都有开放分类,开放分类又称为社会性标注和大众分类法。通过分析发现人物类别的开放分类共有112个,本文利用此112个开放分类对人物类别的网页进行筛选,共提取出218,171个人物类别的网页。 第三,本文对基于触发词的人物属性抽取方法进行了研究,通过网上搜集和语言分析制定触发词表,完成人物属性的抽取。实验表明该方法从百科文本中抽取人物属性信息是可行的。 第四,本文提出了自动获取规则的方法,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计其前后词的方法发现候选规则,再对候选规则进行数学计算得到抽取规则,最后根据规则匹配从百科文本中获取人物属性信息。实验结果表明该方法的可行性和有效性。 最后,本文实现了人物属性抽取原型系统,该系统具有数据采集和预处理、人物属性抽取等功能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
2 邓擘;樊孝忠;杨立公;;用语义模式提取实体关系的方法[J];计算机工程;2007年10期
3 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
4 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
5 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
6 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
7 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
8 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
9 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
10 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
11 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
12 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期
13 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
14 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
15 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
16 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
17 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
18 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
19 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
20 李绍英;;基于代理技术的比较购物研究[J];当代经理人(中旬刊);2006年10期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
10 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈亮华;基于网络爬虫的基金信息抽取与分析平台[D];华南理工大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田鹤楠;质检总局舆情监控系统中信息抽取的研究[D];北京邮电大学;2011年
5 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
9 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
10 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
4 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
5 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
6 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
7 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
8 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
9 刘成富;编辑网页有妙法[N];计算机世界;2004年
10 ;网站安全必不可少的保护神[N];中国计算机报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978