收藏本站
《北京邮电大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

信息抽取中关键技术的研究

张素香  
【摘要】: 随着Internet技术的不断发展和网上电子文本的日益增多,使得用户从网上获取有效信息变得日趋困难。面对信息爆炸带来的问题,亟需一些智能化工具来帮助人们从海量信息中获取真正需要的信息,信息抽取正是基于这一需求而产生的。信息抽取目前已经成为人们研究的热点,根据ACE(Automatic Content Extraction)会议评测任务的划分,它主要研究命名实体识别、实体关系抽取、指代消解、事件探测这四个领域。其中,实体识别和关系抽取又是这些任务中最重要的部分。本文对信息抽取技术的研究主要集中在命名实体识别和实体关系抽取两个方面,将先进的机器学习算法和全新的理论方法—全信息理论运用到我们的整个研究过程中。本文的贡献主要有以下几个方面: 1、提出了一种专家知识和多模型相结合的命名实体识别方法,充分考虑了专家知识在命名实体识别中的作用。根据实体类型的不同,分别采用不同的实现方法,人名、地名识别采用先规则后统计的方法,而组织机构名识别则采用先统计后规则的方法。统计学习方法应用了最大熵(Maximum Entropy,ME)和条件随机场(Conditional Random Fields,CRFs)算法。命名实体识别的主要贡献详细描述如下: 首先,命名实体识别系统利用专家知识和规则进行人名、地名的候选,然后再将候选的实体输入统计模型进行判断,其中,在处理候选人名时,为了防止一个外国译名被部分识别为一个或几个中国人名,提出了动态优先级方法,该方法首先建立高频的歧义字,这些字既可用作中国人名的姓氏,又可经常出现在外国译名中,实体识别系统在处理候选人名时一旦遇到这些高频歧义字,利用前后向探测方法灵活地调用中外人名识别模型,实验证明,该方法极大地提高了人名识别的性能指标。地名的候选也充分利用了“省、市、山、湖、自治县”等明显的后缀信息以及“奔赴、赴、故都”等前缀信息,作为触发地名识别模块工作的条件。模型中的特征包括了各个层面:实体的上下文环境、上下文的特定语义、实体中不同字或词对实体识别的贡献度等。本文使用了概率信息,增强了样本的差异性,提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。 其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模型,针对不同的模型抽取了不同的特征。 第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与常用的短语BIO识别方法相比,本文定义了BILO四类标记,增加一类标记L。采用BILO方法,将机构名识别转化为相应的标记分类任务,使机构名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特征。最后,利用规则——特殊模板来识别利用统计方法没有识别出的机构名。 利用该命名实体识别系统参加了2006年SIGHAN中的命名实体比赛,实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1998年1月的《人民日报》进行实验,对比了ME、CRFs用于汉语命名实体识别的实验结果,通过对结果的分析和比较,表明CRFs模型在性能上优于ME模型。 2、提出了基于CRFs的实体关系自动抽取方法,主要自动抽取句子中二元实体之间的关系,主要从以下两个方面完成: 首先,收集和标注语料。以“人事变动”领域为例,基于《人民日报》和互联网进行语料收集工作,将收集到的语料进行切分、POS等预处理后,再改写为XML树。在此基础上,我们标注了三类实体关系:职位、人、公司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。 其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型,利用CRFs算法进行实体关系的自动抽取实验。针对不同的实体关系选取不同特征,实验结果证明,CRFs和其它算法相比,可以有效地解决二元实体关系的自动抽取问题。 3、为了正确获取文本中隐含的实体关系并推送给用户一个更完整的结果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两点: 首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难,提出利用无监督的学习方法——Bootstrapping方法获取抽取模板,并提出了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库,从而完成语法知识的获取任务。 其次,建立全信息知识库。采用语义框架的表示方法,结合“模式—行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关系获取方法能有效地解决多个实体关系的同时获取问题。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
3 吕红,李时光,徐问之,闫旭,吕怡;不完全扇形投影数据的图象重建算法研究[J];重庆大学学报(自然科学版);1997年05期
4 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
5 吴谨,李娟,刘成云,夏贝贝;基于最大熵的灰度阈值选取方法[J];武汉科技大学学报(自然科学版);2004年01期
6 余卫雄,姜礼平;基于粗集和最大熵的模式识别方法[J];海军工程大学学报;2004年03期
7 江兴方,陶纯堪,是度芳;用最大熵方法改善图像质量[J];江苏工业学院学报;2005年01期
8 魏明果,刘润泽;射线方程及最大熵图像重建方法的应用研究[J];三峡大学学报(自然科学版);1997年02期
9 陈韶华;最大熵少数投影层析图像重建新算法[J];湖北大学学报(自然科学版);2000年02期
10 陈文庆,李勤,姚伽华;基于最大熵模型的垃圾邮件过滤技术[J];广西师范学院学报(自然科学版);2005年01期
11 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
12 曹力;史忠科;郑家伟;;基于最大熵的自动确定多阈值方法(英文)[J];Transactions of Nanjing University of Aeronautics & Astronau;2005年04期
13 覃颖;石勇涛;;基于最大熵的虹膜定位算法[J];三峡大学学报(自然科学版);2006年04期
14 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
15 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
16 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
17 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
18 夏靖波,魏颖,陆增喜,褚改霞;基于最大熵电容成象图象重建算法的研究[J];控制与决策;2000年04期
19 王青,陈韶华;基于神经网络优化的少数投影最大熵层析图像重建算法[J];量子电子学报;2003年01期
20 王玉梅,王怀斌,李方华;最大熵像解卷结合像模拟确定Nd_(1.85)Ce_(0.15)CuO_(4-δ)的晶体结构[J];电子显微学报;2004年04期
中国重要会议论文全文数据库 前10条
1 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 亢世勇;常宝宝;刘海润;徐艳华;俞士汶;;全信息标注语料库的开发与应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 王玉明;;最大熵可靠性评估方法的改进[A];中国工程物理研究院科技年报(2003)[C];2003年
8 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
9 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 宋景明;梁生正;杨高印;冉学锋;;全信息地质地球物理综合解释方法与效果[A];2001年中国地球物理学会年刊——中国地球物理学会第十七届年会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 黄刚、特约通讯员崔铁良;沈阳军区某师健全信息安全防范手段[N];解放军报;2003年
2 王妙发;理想的考古报告——不厌其详的“全信息报告”[N];中国文物报;2001年
3 王斌;金鹰集团:信息化浪尖上的“弄潮儿”[N];中国工业报;2007年
4 通讯员 梁晔;多措并举推进平安建设[N];巴彦淖尔日报(汉);2008年
5 刘艳 马达;做大市场 服务全网[N];中国邮政报;2007年
6 新华;网上炒股购物谨防病毒窃密[N];大众科技报;2007年
7 刘金平;北京正在形成“从农田到餐桌”全程监管体系[N];中华新闻报;2007年
8 谢才能 陈庄梯;给特种设备装上“监控眼”[N];中国质量报;2004年
9 李建韬;美军新型信息战凸显[N];解放军报;2002年
10 记者 傅春秘 通讯员 王东琦;靠“中国创造”闯国际市场[N];秦皇岛日报;2006年
中国博士学位论文全文数据库 前10条
1 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
2 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 陈军;短信号分析技术及其在故障诊断中的应用[D];武汉理工大学;2003年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 任登君;面向机器学习方法的命名实体识别[D];东北大学;2005年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
7 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
8 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
9 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
10 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978