收藏本站
《中国海洋大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语依存句法分析方法的研究与实现

姚文琳  
【摘要】: 句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取、文本分类和自动文摘等自然语言处理系统都有着极其重要的意义。 句法分析是依赖于某种语法理论的,在形式语法体系中,依存语法逐渐成为研究人员重视的热点。依存句法分析技术也不断得到发展和完善,并在英语等印欧语言中取得较好的研究成果。但目前为止针对汉语在依存句法分析方面的相关研究并不多见,汉语的依存分析研究成果与比印欧语言逊色得多。为此,本文采用基于统计理论的学习方法,针对汉语特有的语法特点,对汉语的依存句法分析方法进行了研究和探索。本文主要采用决策式的依存句法分析方法,解决了汉语句法分析中存在的一些问题。本文工作的主要贡献和创新点如下: 1.提出并实现了一种针对汉语长句的决策式分析方法CLDP。该方法针对汉语复杂长句句法分析存在的困难,考虑一种“分而治之”的处理策略,采用分层分析的方法,把复杂的句法分析问题分解为几个易于处理的子问题,以降低分析难度,提高分析效率。本文提出并实现了非贪婪的考虑长距离依存的决策式汉语分析方法N-CLDP。该方法利用汉语句子中根的唯一性对长句进行了分割。实现时,利用机器学习方法SVM设计了一种高效的根搜索器Root-Searcher,该根搜索器Root-Searcher可以标记出每个句子的根结点,依据根结点,句子被分割成两个子句。对子句分别进行依存分析后,进行子句的连接。把两个子句的根结点合二为一,合并两个子依存结构,从而得到长句的完整的依存结构。实验数据表明,本文构造的根搜索器Root-Searcher具有较高的准确性。在长句占的比例较大的训练集和测试集上,本文的方法达到了较好的分析性能,有效降低了句子的复杂度,显著地提高了句法分析器的准确率。 2.提出并实现了一种基于二段式的子句依存分析方法TSP。本文针对决策式依存分析中存在的Early-reduce问题,设计并实现了二段式的子句依存分析方法。该方法采用了有效的特征组合,利用二段分析,特征复用等手段有效解决了汉语右依存中动词与动词之间,以及动词与介词之间的VP Early-reduce问题,并且降低了算法的贪婪性。另外,本文提出并实现了子句的双向分析策略BSP。根据分割后句子的特点,以及汉语语言所具有的投影性特征,提出了采用向前分析和向后分析相结合的策略。在分析时将从前向后与从后向前两种分析方向结合使用。实验中将二段式句法分析策略与一次分析进行了性能比较,并考察了句法分析方向对于分析结果的影响。实验结果表明本文的二段式的子句依存分析方法TSP提高了句法分析器的性能。子句的双向分析策略BSP也比单向分析获得了更好的分析效率。 3.提出并实现了一种基于介词短语右边界的自动识别的依存句法分析算法RPP。根据介词短语的语用特征,提出一种对介词短语的后续词进行分析的方法,相应得到介词短语右边界的识别方法。通对过介词短语的分析,有效解决了决策式分析方法在分析介词短语时存在的缺陷。避免了分析介词在长距离依存时,由于过早比较、提前决策依存关系出现的错误。实验结果表明本文实现的基于介词短语右边界的自动识别的依存句法分析算法RPP对汉语的介词的长距离依存分析是有效的。
【关键词】:依存句法分析 决策式 长距离依存 二段式句法分析 介词短语
【学位授予单位】:中国海洋大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
  • 摘要5-7
  • Abstract7-15
  • 1 绪论15-35
  • 1.1 引言15
  • 1.2 课题研究背景和意义15-16
  • 1.3 本文的研究目的和研究内容16-17
  • 1.3.1 研究目的16
  • 1.3.2 研究内容16-17
  • 1.4 依存句法分析研究综述17-34
  • 1.4.1 依存结构形式17-19
  • 1.4.2 依存句法分析方法19-21
  • 1.4.2.1 动态规划19-20
  • 1.4.2.2 约束满足20
  • 1.4.2.3 决策式的方法20-21
  • 1.4.3 依存句法分析研究现状21-27
  • 1.4.3.1 Yamada和Nivre的分析模型21-22
  • 1.4.3.2 决策引导句法分析22-25
  • 1.4.3.3 决策式分析的其他成果25-26
  • 1.4.3.4 依存分析成果及其应用现状26-27
  • 1.4.4 汉语依存句法分析研究现状27-30
  • 1.4.4.1 汉语依存体系28
  • 1.4.4.2 汉语依存句法分析的困难与优势28-29
  • 1.4.4.3 汉语依存句法分析主要成果29-30
  • 1.4.5 树库资源建设现状30-33
  • 1.4.6 机器学习方法在句法分析中的应用现状33-34
  • 1.5 论文的结构34-35
  • 2 一种针对汉语长句的依存句法分析方法CLDP35-60
  • 2.1 引言35-36
  • 2.2 汉语长句特点以及分析的困难36-37
  • 2.3 Arc-eager算法分析讨论37-44
  • 2.3.1 算法描述数据结构及基本操作37-39
  • 2.3.2 算法执行过程示例39-41
  • 2.3.3 算法对于长句的分析缺陷41-44
  • 2.4 一种非贪婪的考虑长距离依存的决策式汉语分析方法N-CLDP44-54
  • 2.4.1 依据根搜索器分层次的汉语长句分析策略44
  • 2.4.2 根结点的作用原理44-45
  • 2.4.3 根搜索器的构造45-50
  • 2.4.3.1 HIT Dependency Treebank的格式45-46
  • 2.4.3.2 利用LibSVM实现分类46-47
  • 2.4.3.3 LibSVM对训练数据和测试数据的格式要求47-48
  • 2.4.3.4 数据格式转换48-49
  • 2.4.3.5 训练和测试数据49
  • 2.4.3.6 根搜索器Root-Searcher的特征组合49-50
  • 2.4.4 长句的分隔50-53
  • 2.4.5 子句的连接合并53-54
  • 2.5 实验结果及分析54-59
  • 2.5.1 测试用句54-55
  • 2.5.2 评价分析结果的标准55-56
  • 2.5.3 实验结果56-59
  • 2.5.3.1 根搜索器性能评估56-57
  • 2.5.3.2 根搜索器特征评估57-58
  • 2.5.3.3 不同测试集的分析结果比较58-59
  • 2.6 本章小结59-60
  • 3 一种基于二段式的子句依存分析方法TSP60-85
  • 3.1 引言60
  • 3.2 Early-reduce问题60-65
  • 3.3 子句句法分析方法65-79
  • 3.3.1 二段式句法分析方法TSP65-77
  • 3.3.1.1 VP Early-reduce问题66
  • 3.3.1.2 分类特征以及复用特征66
  • 3.3.1.3 阶段一的操作策略66-67
  • 3.3.1.4 阶段一算法的形式化描述67-68
  • 3.3.1.5 阶段一的分类器特征68-69
  • 3.3.1.6 阶段二的操作策略69
  • 3.3.1.7 阶段二的算法的形式化描述69-70
  • 3.3.1.8 阶段二的分类器特征70-71
  • 3.3.1.9 示例说明71-77
  • 3.3.2 子句双向分析策略BSP77-78
  • 3.3.3 构建分类模型引导分析算法78-79
  • 3.4 实验结果分析79-84
  • 3.4.1 测试用句79
  • 3.4.2 实验结果79-84
  • 3.4.2.1 句法分析器正确率评估80-81
  • 3.4.2.2 二段式分析策略的优越性81-82
  • 3.4.2.3 分析方向效果评估82-84
  • 3.5 本章小结84-85
  • 4 一种基于介词短语右边界的自动识别的句法分析方法RPP85-103
  • 4.1 引言85
  • 4.2 介词短语分析及本文的识别方法85-89
  • 4.2.1 介词短语的分析85-88
  • 4.2.1.1 介词短语的左右边界85-87
  • 4.2.1.2 介词短语担任的句法成分87
  • 4.2.1.3 介词短语的语用特征87-88
  • 4.2.1.4 其他词与介词短语并列作为修饰成份88
  • 4.2.2 基于介词短语右边界的自动识别机制88-89
  • 4.3 Arc-eager算法分析介词短语的缺陷89-90
  • 4.4 本文采用的算法RPP90-96
  • 4.4.1 本文的方法依据90-91
  • 4.4.2 利用SVM构造介词短语识别器91-92
  • 4.4.3 RPP算法描述92-94
  • 4.4.4 利用MaltParser实现本文算法94-95
  • 4.4.5 RPP的特征向量组合95-96
  • 4.5 树库数据格式转换96-97
  • 4.6 实验结果和分析97-101
  • 4.6.1 实验结果97-98
  • 4.6.2 本文的RPP算法的缺陷分析98-99
  • 4.6.3 特征组合对句法分析结果的影响99-100
  • 4.6.4 训练语料规模对实验结果的影响100-101
  • 4.7 本章小结101-103
  • 5 总结与展望103-106
  • 5.1 论文内容和创新点总结103-104
  • 5.2 下一步工作展望104-105
  • 5.3 本章小结105-106
  • 参考文献106-112
  • 附录1112-114
  • 附录2 哈工大信息检索研究室汉语依存骨架树库说明114-115
  • 致谢115-116
  • 个人简历116-117
  • 在学期间发表的学术论文与研究成果117-118

【引证文献】
中国硕士学位论文全文数据库 前3条
1 刘俊;基于依存关系的汉语复句内分句的相似度计算[D];华中师范大学;2014年
2 李玉娥;基于依存句法分析的语义三元组构建的研究与实现[D];沈阳工业大学;2014年
3 肖睿;基于中文树库的依存句法分析的研究与实现[D];沈阳工业大学;2014年
【参考文献】
中国期刊全文数据库 前10条
1 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
2 周惠巍;黄德根;李巍;;基于支持向量机的日语并列关系解析[J];大连理工大学学报;2007年06期
3 赵铁军,方高林,李生;英语介词短语附着决策的研究[J];高技术通讯;2001年03期
4 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期
5 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
6 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
7 李明琴,李涓子,王作英,陆大;中文语义依存关系分析的统计模型(英文)[J];计算机学报;2004年12期
8 李珩,朱靖波,姚天顺;基于SVM的中文组块分析[J];中文信息学报;2004年02期
9 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
10 党政法,周强;短语树到依存树的自动转换研究[J];中文信息学报;2005年03期
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
3 黄昌宁;李玉梅;;从树库的实践看句本位和中心词分析法的生命力[J];北京师范大学学报(社会科学版);2010年05期
4 秦颖;王小捷;钟义信;;级联中文组块识别[J];北京邮电大学学报;2008年01期
5 李良炎;;新的句法标注模型探索[J];重庆大学学报(社会科学版);2007年03期
6 谷胜伟;;基于赫夫曼树的SVM多分类器构造方法[J];滁州学院学报;2009年03期
7 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
8 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
9 周惠巍;黄德根;钱志强;杨元生;;短语结构到依存结构树库转换研究[J];大连理工大学学报;2010年04期
10 谌志群,周昌乐;汉语机器理解研究现状及展望[J];电脑学习;1999年02期
中国重要会议论文全文数据库 前10条
1 刘健刚;董静;;从符号学看标点在语音文本中的技术实现[A];2011'中国西部声学学术交流会论文集[C];2011年
2 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 邵艳秋;邱立坤;梁春霞;毛宁;;中文语义依存树库构建及自动分析技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 任登君;李珩;张俐;姚天顺;;基于词对齐的双语组块对齐[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 张运良;张全;;概念优先组合判断研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
2 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
5 陈为民;基于支持向量机的信用卡信用风险管理模型与技术研究[D];湖南大学;2009年
6 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
7 冯文贺;汉语连词及其相关结构的依存分析[D];武汉大学;2011年
8 汪梦翔;对象格语义范畴及其相关语法理论研究[D];华中师范大学;2012年
9 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
4 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
5 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
6 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
7 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
8 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 冯蕾;基于最优投影支持张量机的多分类算法研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
2 庞伟正,金瑞琪,王成武;一种规则引擎的实现方法[J];哈尔滨工程大学学报;2005年03期
3 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
5 陈明亮,李怀祖;基于规则的专家系统中不确定性推理的研究[J];计算机工程与应用;2000年05期
6 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
7 王李军;陶明亮;张曙;莫琪叶;;面向业务规则引擎研究[J];计算机工程;2007年24期
8 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
9 刘剑;陈一超;江虹;;基于规则的通用专家知识库故障诊断方法[J];计算机与数字工程;2010年06期
10 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
【二级参考文献】
中国期刊全文数据库 前10条
1 李珩,谭咏梅,朱靖波,姚天顺;汉语组块识别[J];东北大学学报;2004年02期
2 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
3 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
4 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
5 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
6 李珩;杨峰;朱靖波;姚天顺;;基于增益的隐马尔科夫模型的文本组块分析[J];计算机科学;2004年02期
7 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
8 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
9 应宏,蔡莲红;基于结构助词驱动的韵律短语界定的研究[J];中文信息学报;1999年06期
10 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前2条
1 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
【相似文献】
中国期刊全文数据库 前10条
1 玉素甫·艾白都拉;维语句法分析器中的词义排歧问题的研究[J];计算机应用与软件;2002年04期
2 邹加棋;带有误差上限的句法分析方法[J];福建电脑;2003年12期
3 李向宏,王丁,黄成哲,雷国华;自然语言句法分析研究现状和发展趋势[J];微处理机;2003年02期
4 孟遥;李生;赵铁军;杨沐昀;;基于统计的句法分析技术综述[J];计算机科学;2003年09期
5 徐健,张辉,蔡劲松;一种现代汉语句法分析方法的建立与实现[J];计算机应用与软件;2004年01期
6 陈晓明,周渝;汉语部分句法分析的研究和发展趋势[J];贵州大学学报(自然科学版);2004年04期
7 李幸;宗成庆;;引入标点处理的层次化汉语长句句法分析方法[J];中文信息学报;2006年04期
8 冀铁亮;穗志方;;词汇化句法分析与子语类框架获取的互动方法[J];中文信息学报;2007年01期
9 段湘煜;赵军;徐波;;基于动作建模的中文依存句法分析[J];中文信息学报;2007年05期
10 张小艳;邵刚;史月飞;;汉语句法分析中标点符号的运用[J];计算机工程与科学;2009年01期
中国重要会议论文全文数据库 前10条
1 李正华;车万翔;刘挺;;基于柱状搜索的高阶依存句法分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 李军辉;周国栋;朱巧明;钱培德;;一种改进的中文层次句法分析模型研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
4 冀铁亮;穗志方;;词汇化概率句法分析与动词子语类框架获取的互动方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 孙俊;曹海龙;赵铁军;;面向句法分析的样本选择[A];第三届学生计算语言学研讨会论文集[C];2006年
6 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 孙宏林;俞士汶;;浅层句法分析方法概述[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
10 段湘煜;赵军;徐波;;基于动作建模的中文依存句法分析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 冯秋香;基于数据库语义学的古汉语句法语义分析研究[D];大连理工大学;2012年
7 林锋;问题回答和对话系统中置信度的研究[D];复旦大学;2008年
8 骆琳;面向计算机的现代汉语“得”字研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 王蕾;基于统计方法的汉语长句依存句法分析[D];中国海洋大学;2009年
2 邵刚;基于中文的句法分析系统的研究与实现[D];西安科技大学;2008年
3 沈超;基于转换的依存句法分析研究[D];复旦大学;2009年
4 黄鑫;基于句法分析的产品评论挖掘研究[D];北京邮电大学;2011年
5 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
6 孙俊;面向句法分析的样本选择[D];哈尔滨工业大学;2006年
7 耿向好;基于历史信息的中文多层次句法分析研究[D];苏州大学;2008年
8 任晓娜;基于统计的汉语依存句法分析研究[D];沈阳航空航天大学;2011年
9 郎文静;规则与统计相结合的汉语依存句法分析技术研究及其应用[D];沈阳航空航天大学;2012年
10 马学喆;依存句法分析的若干关键问题的研究[D];上海交通大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026