收藏本站
《东北大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息抽取的文本预处理和规则自动学习技术研究

叶娜  
【摘要】:随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅层分析,快速准确地从海量信息源中提取出用户感兴趣的信息,从而成为自然语言处理领域的一个热点研究课题。 信息抽取的任务是从文本中抽取字符串形式的信息,并将此信息填入带标记的槽中,来表明其含义。该技术是许多自然语言处理技术的综合运用,涉及的内容包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文对信息抽取中的文本预处理和规则的自动学习技术进行了研究。 在文本预处理方面,本文用有限状态自动机实现了简单实体的识别,可识别的实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自动机的设计充分考虑了各种类别的实体的文本结构特点,在大规模人民日报语料上测试时取得了很好的识别效果。 传统的信息抽取系统由专家手工书写规则,规则库的构造是知识获取的瓶颈问题,规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归纳逻辑编程技术可以自然地描述和学习复杂的关系,非常适合于信息抽取规则中的知识表示和自动生成。本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取方法,解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的扩展性,且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大大降低了对资源的要求。实验结果表明,本方法获取的规则,相较零阶逻辑下的规则,具有更高的准确率和召回率。 根据以上给出的文本预处理技术和规则自动学习算法,我们设计实现了完整的中文信息抽取系统。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
5 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
6 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
7 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
8 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
9 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
10 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 马志彦;悄然而至的EIP[N];中国计算机报;2002年
10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
6 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
7 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
10 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026