收藏本站
《华中师范大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语复句书读前后语言片段的非分句识别

李琼  
【摘要】: 为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。 本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下: 第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。 第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。 第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。 第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。 第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。 第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:H146

【相似文献】
中国期刊全文数据库 前10条
1 仁青卓么;;藏语动词短语结构类型统计研究[J];西北民族大学学报(自然科学版);2018年02期
2 侯冬意;;中考英语总复习——动词[J];中学生英语;2017年11期
3 孙浩;;高中英语学习中动词及动词短语的识记及应用[J];祖国;2017年02期
4 洪芸;;常见易混英语动词短语坚持复习的“三步走”[J];英语画刊(高级版);2017年05期
5 王耀川;;2016年天津市中考作文[J];中学生;2017年12期
6 闵慧;;激发学生智慧,加强学生记忆——初中英语动词短语归类复习教学实践[J];英语画刊(高级版);2017年09期
7 华国红;;中考动词易错题分析及解题策略[J];新高考(升学考试);2017年06期
8 俞红平;刘本龙;;擦亮眼睛看高考动词及动词短语[J];高考;2017年10期
9 何杨;;高频动词短语积累[J];初中生辅导;2017年Z6期
10 易经;论将来时性条件分句中多种限定动词短语的成因[J];湖南大众传媒职业技术学院学报;2005年05期
中国重要会议论文全文数据库 前6条
1 刘瑞玲;徐波;;带it的动词短语的分类及译法[A];外语语言教学研究——黑龙江省外国语学会第十一次学术年会论文集[C];1997年
2 姜群;;俄语中替换副动词短语的语法结构[A];外语语言教学研究——黑龙江省外国语学会第十一次学术年会论文集[C];1997年
3 唐世民;;二语习得中动词参数的重新设定[A];《第二语言学习研究》2017年第2期[C];2017年
4 华沙宝;达胡白乙拉;;蒙古语宾述短语的自动获取研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 王平;;人教新版六年级英语上册Unit 4 I have a pen pal 第二课时 Let’s learn[A];2016年河北省教师教育学会第四届优秀教学案例论坛论文集[C];2015年
6 李美霞;;认知功能视野下的汉语存现句研究[A];第四届全国认知语言学研讨会论文摘要汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 张平;“A点儿+V”与“V+A点儿”[D];湖南师范大学;2004年
2 曾小红;汉语“过+宾”结构的多角度分析[D];湖南师范大学;2004年
3 郑继娥;殷墟甲骨卜辞祭祀动词的语法结构及其语义结构[D];四川大学;2004年
4 刁晏斌;虚义动词论[D];南开大学;2004年
5 赵贤德;句管控下的“V成”结构及相关小句[D];华中师范大学;2006年
6 李金兰;现代汉语身体动词的认知研究[D];华东师范大学;2006年
7 孙英杰;现代汉语体系统研究[D];北京语言大学;2006年
8 万莹;相似介词“X”与“X着/了”比较研究[D];华中师范大学;2006年
9 丁建川;《世说新语》名词、动词、形容词研究[D];山东大学;2007年
10 左双菊;位移动词“来/去”带宾能力的历时、共时考察[D];华中师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 姚安娜;英汉笔译中动词使用策略的研究[D];北京外国语大学;2019年
2 王韵;假装类动词的反叙实性研究[D];吉林大学;2018年
3 杨学娇;现代汉语获取类动词研究[D];南京师范大学;2018年
4 徐媛媛;意象图式的应用对高中生英语动词短语习得的影响研究[D];江西师范大学;2018年
5 席芹芹;输出任务和参与方式对初中生动词短语学习的影响[D];扬州大学;2019年
6 陈宇;初中生英语写作中动词使用错误的调查研究[D];江苏师范大学;2018年
7 范静静;认知配价理论指导下的教学对高中生英语动词短语学习的影响[D];扬州大学;2017年
8 于南;现代汉语用法词典动词释义、用法说明对比研究[D];哈尔滨师范大学;2017年
9 贾增红;最简方案框架下的英语动词短词省略研究及对汉语动词短语省略的启示[D];上海外国语大学;2009年
10 孙莹;输入频次对高中学生英语动词短语习得的影响研究[D];西北师范大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026