收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多词表达抽取及其应用

段建勇  
【摘要】: 多词表达是自然语言处理中的难点,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。经典的自然语言处理系统通常假设每个词汇为一个语义单元,这并没有包括多词表达在里而,多词表达跨越词汇边界,因而有其特殊的解读方法。识别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是进一步研究的瓶颈。近年来多词表达被单独提出来作为一个专门的主题来研究。 本文的工作分为多词表达的抽取与应用两方面。首先针对单语与双语的特点提出了一套适合处理松散结构类型多词表达的抽取方法,该方法是受生物信息学中基因比对算法的启发,提出的抽取模型结合了自然语言自身特性以及机器学习方法。在多词表达的应用上,把多词表达作为词义消歧的一种知识资源,利用资源与算法的瓦相作用来提高词义消歧效果;另一个应用是术语抽取作为概念图自动标引的重要基础工作,把术语识别和关系自动构建运用到概念图自动标引任务。本文的创新性工作有以下几点: 一、为了有效抽取单语多词表达,在生物信息学的启发下提出了一种基于多序列比对的识别算法。利用文本序列与生物基因序列的相似性改进了多序列比对算法,使得其适合文本处理,同时算法中结合错误驱动规则,对于不连续结构的多词表达的抽取比传统的方法有很大的性能改善,改善之一是保障不同类型多词表达的召回率,其二,它运用动态规划的方法阻止候选多词表达纵合爆炸,采用的技术主要是在模式抽取上用全局策略代替局部子模式抽取,降低了子模式的冗余件。在实验中也证实,它对松散结构有较好的性能。 二、提出一种多策略的方法来抽取双语多词表达。在单语抽取结果的基础上,统计和规则的方法以及双语对照运用到抽取系统中以提高效果。抽取过程有两个阶段,在第一阶段大量的单语候选多词表达从语料库中被抽取出来,多序列比对的方法对结构松散的多词表达效果较佳。第二阶段中,错误驱动规则以及模板从语料库中抽出,为了获得质量较高的训练实例,训练实例的选取采用人工辅以主动学习的方法,这些训练出来的规则用来过滤候选多词表达。双语对照方法也被本系统采纳,还有部分双语句法对照模式从双语短语词典中获取。另外还设计了一系列的实验选取合适的参数用以提高系统的性能。实验结果显示混合的方法比单一的方法取得较好的性能。 三、把多词表达作为词义消歧的一种知识资源,提出一种新的词义消歧方法,叫做多引擎协同自举(MCB)。这种方法不但结合了不同类型的语料库包括双语语料库,而且还结合了不同类型的上下文词汇特征(包括多词表达)。初始特征以及迭代过程中特征的来源都是多渠道的,因而称为多引擎方法。MCB方法运用双语自举作为它的核心算法来完成特征的增量获取,并且在学习器中运用期望最大化算法(EM)来训练参数。双语间的特征翻译采用语义相关估计矩阵来提高特征在双语间翻译的质量。比起有指导的特征选取方法,这些通过无指导的机器学习方法学习得来的特征同样能够保证初始特征的高精确率。实验证明MCB方法是有效果的。另外一些因素包括特征空间和起始种子的数目也是实验关注的因素。 四、把重要的一类多词表达抽取技术—术语抽取—运用到了图书摘要的概念图标引任务中,提出一种基于概念图的半自动标引方法。概念图标引是一种深度语义标引,它把离散的关键字通过语义关系连接成一个完整的语义整体。先手工标引一定量的概念图,总结出其中的标引规律,然后在手工标引的经验之上,探索概念图自动化标引,特定领域中的术语抽取与概念间关系构建是自动化标引的基础工作,实验取得了一定的进展。由于概念图的自动化标引是一项综合了自然语言处理多项核心技术的工作,后续的研究工作还很艰巨。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 秦爱梅;赵冬生;;概念图在高职计算机基础教育中运用的可行性分析[J];中国现代教育装备;2007年01期
2 张志琴;;概念图,让写作知识构建更优化[J];中国信息技术教育;2010年14期
3 马峻;一种从线性概念图中自动抽取本体概念的算法[J];计算机工程与应用;2004年23期
4 孙景荣;许录平;;概念图在数字图像处理教学中的应用[J];中国电子教育;2008年01期
5 张蕾;用概念图表示规则及其推理方法[J];西北大学学报(自然科学版);1994年04期
6 吴敬花,周竹荣;基于概念图的网络课件维护研究[J];西南师范大学学报(自然科学版);2004年05期
7 王小捷,钟义信;基于Ontology的英汉机器翻译研究[J];中文信息学报;2000年05期
8 黄璞,王涛涛;推荐一种概念图绘制的专业工具——Mind Manager[J];化学教学;2004年05期
9 李翀;杨威;;概念图在高中信息技术课程教学中的应用研究[J];中小学电教;2008年Z1期
10 刘晓霞;概念图知识表示方法的研究[J];计算机应用与软件;2001年08期
11 刘培奇,李增智,赵银亮;扩展产生式规则知识表示方法[J];西安交通大学学报;2004年06期
12 赵俊莉,赵冬生;概念图在信息技术课堂中的应用[J];现代教育技术;2005年05期
13 裴广慧;;概念图及其在中小学教学中的应用[J];软件导刊;2007年18期
14 张宝;;概念图在基于网络的远程学习中的应用研究[J];中国教育技术装备;2008年07期
15 沈洁;赵国庆;黄荣怀;;协同概念构图研究[J];计算机时代;2005年12期
16 孔德慧;孙艳丰;李敬华;;利用概念图技术改进计算机图形学教学[J];计算机教育;2006年10期
17 秦爱梅;赵冬生;;概念图在高职计算机基础课程中的应用[J];中国职业技术教育;2007年16期
18 陈忆金;王克强;黄建基;;《管理信息系统》课程概念图框架及内容设计[J];科技信息(学术研究);2007年24期
19 姚红英;;高校计算机程序设计中“概念”的教学对策[J];科技风;2008年21期
20 阮春燕;;概念图在办公软件应用教学中的应用[J];科技资讯;2009年21期
中国重要会议论文全文数据库 前10条
1 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王盛;吴长刚;孙慰迟;;带约束星形序列比对复杂性的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 朱秀妹;王民;;地理教学中概念图的应用[A];中国地理学会2004年学术年会暨海峡两岸地理学术研讨会论文摘要集[C];2004年
6 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
7 梁永锋;;概念图的制作及其在化学教学中的应用[A];第六届甘肃省中学化学教学经验交流会论文集[C];2005年
8 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 邓旭;;概念图在植物生理学教学中的运用[A];2005'海峡两岸植物生理与分子生物学教学研讨会论文集[C];2005年
10 王丽萍;;概念图的理论及其在化学复习中的应用[A];甘肃省化学会成立六十周年学术报告会暨二十三届年会——第五届甘肃省中学化学教学经验交流会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
2 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
3 周红;基于de Bruijin图的DNA多序列比对并行算法研究[D];天津大学;2010年
4 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年
5 唐玉荣;生物信息学中的序列比对算法研究[D];中国农业大学;2004年
6 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
7 谷俊峰;蛋白质结构预测中几个关键问题的研究[D];大连理工大学;2009年
8 张蕾;概念结构及其应用[D];西北工业大学;2001年
9 葛宏伟;基于计算智能的若干优化问题研究[D];吉林大学;2006年
10 刘立芳;生物信息学中的多序列比对与模体识别问题研究[D];西安电子科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 王丽霞;支持建构主义学习环境的概念图的设计与应用研究[D];华东师范大学;2001年
2 朱亚莉;促进“反思”的概念构图教学研究[D];华东师范大学;2003年
3 李莉;概念图在护理病例分析教学中的应用研究[D];山西医科大学;2010年
4 张冬梅;中学化学教学测量与评估中的概念图研究[D];南京师范大学;2004年
5 郑魏;利用概念图促进概念教学的教学模式研究[D];吉林大学;2011年
6 李艳静;概念图在高中地理教学中的应用研究[D];山东师范大学;2006年
7 卢正芹;概念图在中等卫校医学遗传学教学中的应用研究[D];云南师范大学;2006年
8 赖树生;概念图在高中物理教学中的应用[D];内蒙古师范大学;2007年
9 程笑宇;概念图在初中物理教学中的应用[D];南京师范大学;2008年
10 魏艳华;概念图在中学历史教学中的应用研究[D];首都师范大学;2008年
中国重要报纸全文数据库 前10条
1 广州市天河区教育局电教站 封士将 广州市骏景中学 容梅;有效整合的应用模式[N];中国电脑教育报;2004年
2 广东省广州华南师大附小 王继华;概念图对提高网络学习效率的作用[N];中国电脑教育报;2005年
3 上海中医药大学 徐平;概念图理论及其在教学中的应用[N];中国中医药报;2007年
4 北京教育学院朝阳分院 姚咏梅;让理性的光芒照亮阅读与创作的路[N];大众科技报;2007年
5 GAVIN WALKER;《黑客帝国3》中“APU战士”的制作[N];中国电脑教育报;2003年
6 广州华南师大附小特级教师 吴向东;不问收获勤耕耘[N];中国电脑教育报;2004年
7 本报记者 于丽珊;携手探讨针灸人才培养模式[N];中国中医药报;2007年
8 记者 李妍;章子怡英文献声“女忍者”[N];中国电影报;2007年
9 潘其勇;培育学校双语特色 促进教育持续发展[N];中国教师报;2007年
10 赵欣;DC 是如何制成的[N];中国计算机报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978