收藏本站
《山西大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

数值信息的抽取方法研究

毋菲  
【摘要】: 数值信息是文本中事件或实体的一些特定的附加信息,与实体的表现形式类似并以其属性为特征出现的。数值信息分为两类:一类是描述实体特征的值,比如分数、货币数以及一些电话号码和域名信息等;另一类是描述事件特征的值,比如对于犯罪这一事件,其中该犯罪事件的罪名、判刑期限,就是我们要抽取的数值信息,再比如在发生人事调动事件时,发生变动的职位信息也属于数值信息的范畴。数值信息的抽取也是中文信息抽取中的又一重要研究方向,它对自然语言处理的许多领域都有极其重要的研究意义,比如机器翻译、问答系统、信息检索等方向。目前国内的研究主要集中在对事件以及命名实体的抽取上,对该方向的研究并不是很多,其抽取方法也同样集中在两个方面,一是基于规则的方法,根据数值信息本身的特点以及上下文环境,结合内部和外部的特征制定相应的规则进行抽取,虽然准确率很高但可移植性不强。另一方面是基于统计的方法,最常用的就是HMM、Entropy Model还有CRF等,统计的方法大多是基于模型的方法,可移植性强,相对付出的代价小,因此也是自然语言处理中常用的方法。 本文的主要研究工作有以下几个方面: (1)用1998年1月份人民日报语料作为测试语料,搜集要抽取的第一类数值信息的特征,挑选出合适的特征并建立规则集。 (2)对于第二类数值信息,从语料中找出可以决定事件发生的触发词,并抽取该触发词的上下文特征,利用决策树的方法找出确定含有目标词的语句。 (3)对抽取出的语句进行预处理,只保留分词后的结果,构建文本集。利用Stanford parser对文本集进行句法分析,生成句法树以及句法树的文本表示。 (4)从句法树中找出要抽取数值信息的特征,从而进行相应的抽取,并对实验结果进行分析。 本文中对两类数值信息分别采用不同的方法进行处理。对于有关实体特征的数值信息,由于特征明显我们使用规则的方法进行抽取;对于有关事件特征的数值信息,由于规则性不强,我们采用决策树和句法分析相结合的方法进行研究,实验结果表明该方法是可行的,在封闭测试中准确率和召回率均在70%左右,达到了比较好的结果。 最后,本文对实验中的错误实例进行分析研究,找出问题所在并提出了相应的解决方案。在今后的研究中将会进一步扩大语料规模,对数值信息的抽取做更深入的研究。
【关键词】:数值信息 实体特征值 事件论元值 决策树 Stanford parser
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 中文摘要8-10
  • ABSTRACT10-12
  • 第一章 引言12-18
  • 1.1 研究背景与意义12-13
  • 1.2 数值信息抽取的主要研究内容13-14
  • 1.2.1 实体特征值(ECV)13
  • 1.2.1.1 Numeric13
  • 1.2.1.2 Contact-info13
  • 1.2.2 事件论元值(EAV)13-14
  • 1.2.2.1 Crime14
  • 1.2.2.2 Sentence14
  • 1.2.2.3 Job-title14
  • 1.3 数值信息抽取的困难14-15
  • 1.4 论文的主要工作15-16
  • 1.5 论文结构16-18
  • 第二章 有关数值信息的分析18-20
  • 2.1 实体特征值的分析18-19
  • 2.1.1 实体特征值的分类18
  • 2.1.2 实体特征值的分析18-19
  • 2.2 事件论元值的分析19-20
  • 2.2.1 事件论元值的分类19
  • 2.2.2 事件论元值的分析19-20
  • 第三章 实体特征值的抽取策略20-26
  • 3.1 基于规则的抽取策略20
  • 3.2 特征提取20-26
  • 第四章 事件论元值的抽取策略26-38
  • 4.1 决策树算法的介绍26-27
  • 4.2 属性的选取27-28
  • 4.3 决策树的生成28-29
  • 4.4 基于句法分析的事件论元值识别29-36
  • 4.4.1 句法分析简介29-30
  • 4.4.2 事件论元值的识别30-36
  • 4.5 基于规则的事件论元值抽取36-38
  • 第五章 实验结果与分析38-44
  • 5.1 实验语料38
  • 5.2 评价指标38
  • 5.3 实验结果及分析38-44
  • 结论与展望44-46
  • 参考文献46-50
  • 攻读学位期间取得的研究成果50-51
  • 致谢51-52
  • 个人简况及联系方式52-54

【参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 冯志伟;基于短语结构语法的自动句法分析方法[J];当代语言学;2000年02期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期
8 付德宇;代成琴;;一个面向文本分类的中文特征词自动抽取方法[J];计算机工程与应用;2006年15期
9 张维东,张凯,董青,孙维华;利用决策树进行数据挖掘中的信息熵计算[J];计算机工程;2001年03期
10 姜吉发;一种事件信息抽取模式获取方法[J];计算机工程;2005年15期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【共引文献】
中国期刊全文数据库 前10条
1 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
2 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
3 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
4 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
5 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
6 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
7 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
8 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
9 向毅;王成敏;;基于Abney的组块识别方法研究[J];重庆科技学院学报(自然科学版);2008年04期
10 冯志伟;自然语言处理中的概率语法[J];当代语言学;2005年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
9 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 江荻;;现代藏语的句法组块与形式标记[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
5 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
6 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
7 刘志富;现代汉语领属性偏正结构及其相关句法现象[D];华中师范大学;2011年
8 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
9 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
10 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
4 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
5 张媛;基于数据挖掘的选修课成绩分析系统[D];中国海洋大学;2010年
6 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
7 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
8 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
4 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
5 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
6 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
7 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
8 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
9 颜宏文,马瑞,晏弼成;基于信息熵构造判定树的数据挖掘算法的设计与实现[J];计算机工程与应用;2003年23期
10 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 辛霄;范士喜;王轩;王晓龙;;基于最大熵的依存句法分析[J];中文信息学报;2009年02期
2 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
3 卢俊;;对两篇中国神七发射新闻报道的分析[J];现代商贸工业;2009年01期
4 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
5 王延栋;;从《战国策》看《汉语大词典》书证迟后[J];南开语言学刊;2004年02期
6 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期
7 万建成;自然语言句法分析的有界深度控制和早期剪枝[J];软件学报;1995年06期
8 杨思春,陈家骏;汉语自动句法分析中结构歧义分析与研究[J];昆明理工大学学报(理工版);2005年02期
9 邵银波,贺玲,秦江敏;BMP神经网络在句法分析中的运用[J];空军雷达学院学报;2000年04期
10 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
中国重要会议论文全文数据库 前10条
1 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
4 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
5 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
9 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
10 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
7 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
8 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
9 本报记者 杨阳;瓦特开元:一条翻译流水线[N];经济观察报;2007年
10 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
2 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
3 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
7 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
8 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
9 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
10 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
2 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
3 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
4 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
6 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
7 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
8 温艳霞;中文时间规范化方法研究[D];山西大学;2010年
9 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
10 任晓娜;基于统计的汉语依存句法分析研究[D];沈阳航空航天大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026