收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向文景转换的中文浅层语义分析方法研究

李世奇  
【摘要】:本文针对中文浅层语义分析中的关键问题展开了全面深入的研究。浅层语义分析是自然语言处理领域里的研究要点,基于语言学特征和统计机器学习的方法是目前浅层语义分析的主流方法,该方法中最关键的因素是特征的选择和机器学习方法的优化。另外,本文中的浅层语义分析主要面向文景转换这项应用任务,文景转换是指把自然语言文本通过计算机自动转换成为相应的场景或动画,是一门具有重要理论和实际意义的新兴研究方向。本文首先对文景转换中必要的共指消解模块进行了研究;然后从特征选择角度对浅层语义分析方法进行了探索,发掘出在浅层语义分析中具有较强区分能力的句法特征;接着提出一种组合分类模型的方法对浅层语义分析进行完善;最后提出一种基于计算认知模型的方法,从更深层面对中文浅层语义分析进行了探索。具体地说,本文主要包括以下研究内容: (1)首先提出一种基于自适应谐振理论(ART)网络的无指导中文名词短语共指消解方法。该方法充分利用了名词短语自身特征,通过调整ART网络模型中的参数动态地控制聚类数量,有效解决了目前聚类共指消解中输出类别数目难以确定这一难题。另外聚类算法中还采用了一种基于信息增益率的特征选择方法,减少了区分度较弱特征给聚类所带来的干扰。该方法在保证了共指消解准确率的前提下,具有较好的可移植性和鲁棒性,突破了目前文景转换中的浅层语义分析在预处理阶段的主要障碍。 (2)本文从语言学特征层面深入地研究了中文浅层语义分析,提出一种基于多重句法特征的中文浅层语义分析方法。现有研究表明,对特征集合进行改进是目前提高浅层语义分析性能最有效的方法。本文提出将短语结构句法和依存句法两种类型的句法特征进行融合,为浅层语义分析提供了更加丰富和互补的句法信息。然后在这两个句法特征集合基础上,提出一种基于统计的组合特征选择方法,根据各个特征在语料库中的分布状况,快速有效地筛选出适于各分类阶段的组合特征。最后利用短语结构句法特征、依存句法特征以及在前两者基础上构造的组合特征进行语义分析相关的分类。实验表明,本文提出的多重句法特征集合能够有效地提高中文浅层语义分析的性能,在正确句法分析以及自动句法分析条件下均取得了较好的效果。 (3)提出了一种基于组合分类模型的中文浅层语义分析方法,从优化机器学习方法的层面进一步对浅层语义分析进行完善。本文在前面提出的多重句法特征集合基础上,采用五种机器学习方法:K近邻、决策树、感知器、最大熵以及支持向量机,在训练语料上构造了五个语义角色分类模型,作为组合模型中的基本单元。接着通过一种输入相关的选通系统将五个基本分类模型有机地整合到一起,通过调整选通系统中的参数协调各个基本分类模型,控制组合模型的输出结果。最后采用EM算法在训练语料上对选通系统中的参数进行学习,在通用语料库上进行了相关的训练和测试,结果表明该方法能够显著地提高中文语义角色分析的效果。 (4)最后,本文提出了探索性的基于计算认知模型的中文浅层语义分析方法,以认知理论为基本依据,通过模拟人类的语言理解过程,从本质上来研究中文浅层语义分析。首先设计了一种面向计算认知模型和文景转换的命题语义表示形式,这种命题形式能够简单高效地表达自然语言中蕴涵的语义信息。本文将该命题形式作为认知模型中的基本单元,然后在认知模型网络上模拟人脑中神经元的扩散激活机制,使符合上下文约束的命题节点不断被加强,不符合上下文约束的节点逐渐被削弱,根据当网络达到稳定状态时的最终激活命题节点,即可还原出谓词相关的语义分析结果。
【关键词】:浅层语义分析 语义角色标注 自然语言处理 文景转换 计算认知模型
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-14
  • 第1章 绪论14-38
  • 1.1 课题的研究背景及意义14-16
  • 1.2 课题的研究现状及发展趋势16-33
  • 1.2.1 浅层语义分析的任务描述16-17
  • 1.2.2 浅层语义分析的语料资源17-21
  • 1.2.3 浅层语义分析的基本流程和方法21-29
  • 1.2.4 浅层语义分析的评价体系29-33
  • 1.3 本文的研究内容及组织结构33-38
  • 1.3.1 本文的研究内容33-35
  • 1.3.2 本文的组织结构35-36
  • 1.3.3 论文整体与各章内容之间的关系36-38
  • 第2章 基于ART 网络的聚类共指消解方法38-54
  • 2.1 引言38-40
  • 2.2 基于信息增益率的特征选择40-43
  • 2.3 基于ART 网络的中文共指消解43-47
  • 2.4 实验及结果分析47-53
  • 2.4.1 实验数据47-48
  • 2.4.2 评测指标和方法48-49
  • 2.4.3 实验结果和分析49-53
  • 2.5 本章小结53-54
  • 第3章 浅层语义分析中的特征选择方法研究54-75
  • 3.1 引言54-56
  • 3.2 基本特征集合的构建56-63
  • 3.2.1 分类模型的选择和句法树的剪枝56-58
  • 3.2.2 短语结构句法特征集合的构建58-61
  • 3.2.3 依存结构句法特征集合的构建61-63
  • 3.3 基于统计的组合特征集合构建63-66
  • 3.4 实验及结果分析66-73
  • 3.4.1 实验数据及评测指标66
  • 3.4.2 组合特征选择的实验结果及分析66-67
  • 3.4.3 正确句法分析基础上的实验结果及分析67-69
  • 3.4.4 自动句法分析基础上的实验结果及分析69-71
  • 3.4.5 组合句法特征的性能分析71-72
  • 3.4.6 整体性能对比72-73
  • 3.5 本章小结73-75
  • 第4章 基于组合分类模型的浅层语义分析方法75-95
  • 4.1 引言75-76
  • 4.2 基于组合分类模型的浅层语义分析方法76-78
  • 4.3 基本浅层语义分析模型的构造78-87
  • 4.3.1 K 近邻(K-Nearest Neighbor,KNN)模型79-80
  • 4.3.2 决策树(Decision Tree,DT)模型80-81
  • 4.3.3 感知器(Perceptron)模型81-83
  • 4.3.4 最大熵(Maximum Entropy,ME)模型83-85
  • 4.3.5 支持向量机(Support Vector Machines,SVM)模型85-87
  • 4.4 基于EM 算法的组合模型参数训练方法87-89
  • 4.5 实验结果及分析89-94
  • 4.5.1 实验数据及评测指标89-90
  • 4.5.2 正确句法分析基础上的实验结果及分析90-91
  • 4.5.3 自动句法分析基础上的实验结果及分析91-94
  • 4.6 本章小结94-95
  • 第5章 基于计算认知模型的浅层语义分析方法95-112
  • 5.1 引言95-96
  • 5.2 主要计算认知模型概述96-98
  • 5.3 命题语义表示形式的定义98-100
  • 5.4 基于认知模型的浅层语义分析基本方法100-102
  • 5.5 认知模型的构造和整合102-108
  • 5.5.1 构造候选命题102-103
  • 5.5.2 构造LTM 网络103-104
  • 5.5.3 认知模型的构造阶段104-105
  • 5.5.4 认知模型的整合阶段105-108
  • 5.6 实验结果及分析108-111
  • 5.7 本章小结111-112
  • 结论112-114
  • 参考文献114-124
  • 附录124-126
  • 攻读博士学位期间发表的论文及其它成果126-129
  • 致谢129-130
  • 个人简历130

【相似文献】
中国期刊全文数据库 前10条
1 李爱玲;郭建林;韦潜;;一种基于802.1x的双向认证方法及其形式语义分析[J];计算机应用与软件;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 陈小芳;张桂平;蔡东风;叶娜;;基于统计和规则相结合的汉语术语语义分析方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 宋艳雪;张绍武;林鸿飞;;基于语境歧义词的句子情感倾向性分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前2条
1 郭贵春;语义分析方法论的核心及其战略转向[N];中国社会科学院报;2009年
2 张文智 高鹏;论民俗习惯在农村司法实践中的作用[N];吉林日报;2009年
中国博士学位论文全文数据库 前2条
1 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
2 李祺;多媒体传感器网络中音频语义分析方法的研究[D];北京邮电大学;2010年
中国硕士学位论文全文数据库 前10条
1 李想;基于文景转换的手术场景生成技术研究[D];山东大学;2012年
2 林斌;基于语义技术的中文信息情感分析方法研究[D];哈尔滨工业大学;2006年
3 董润芝;文本中场景识别的研究与分析[D];哈尔滨工业大学;2010年
4 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
5 郝远;机械产品设计领域动词多施受动对象结构的研究与应用[D];西安电子科技大学;2010年
6 邹明轩;面向篇章的指示代词研究及在产品设计中的应用[D];西安电子科技大学;2010年
7 郭敏;概念层次网络理论及其在“把”字句理解中的应用[D];华南师范大学;2003年
8 李震;基于聚类的事件蕴涵抽取方法研究与实现[D];哈尔滨工业大学;2011年
9 魏同明;UDLC中化学知识描述的语义实现[D];兰州大学;2010年
10 涂松高;Web查询分类方法的改进[D];上海交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026