收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向文景转换的中文浅层语义分析方法研究

李世奇  
【摘要】:本文针对中文浅层语义分析中的关键问题展开了全面深入的研究。浅层语义分析是自然语言处理领域里的研究要点,基于语言学特征和统计机器学习的方法是目前浅层语义分析的主流方法,该方法中最关键的因素是特征的选择和机器学习方法的优化。另外,本文中的浅层语义分析主要面向文景转换这项应用任务,文景转换是指把自然语言文本通过计算机自动转换成为相应的场景或动画,是一门具有重要理论和实际意义的新兴研究方向。本文首先对文景转换中必要的共指消解模块进行了研究;然后从特征选择角度对浅层语义分析方法进行了探索,发掘出在浅层语义分析中具有较强区分能力的句法特征;接着提出一种组合分类模型的方法对浅层语义分析进行完善;最后提出一种基于计算认知模型的方法,从更深层面对中文浅层语义分析进行了探索。具体地说,本文主要包括以下研究内容: (1)首先提出一种基于自适应谐振理论(ART)网络的无指导中文名词短语共指消解方法。该方法充分利用了名词短语自身特征,通过调整ART网络模型中的参数动态地控制聚类数量,有效解决了目前聚类共指消解中输出类别数目难以确定这一难题。另外聚类算法中还采用了一种基于信息增益率的特征选择方法,减少了区分度较弱特征给聚类所带来的干扰。该方法在保证了共指消解准确率的前提下,具有较好的可移植性和鲁棒性,突破了目前文景转换中的浅层语义分析在预处理阶段的主要障碍。 (2)本文从语言学特征层面深入地研究了中文浅层语义分析,提出一种基于多重句法特征的中文浅层语义分析方法。现有研究表明,对特征集合进行改进是目前提高浅层语义分析性能最有效的方法。本文提出将短语结构句法和依存句法两种类型的句法特征进行融合,为浅层语义分析提供了更加丰富和互补的句法信息。然后在这两个句法特征集合基础上,提出一种基于统计的组合特征选择方法,根据各个特征在语料库中的分布状况,快速有效地筛选出适于各分类阶段的组合特征。最后利用短语结构句法特征、依存句法特征以及在前两者基础上构造的组合特征进行语义分析相关的分类。实验表明,本文提出的多重句法特征集合能够有效地提高中文浅层语义分析的性能,在正确句法分析以及自动句法分析条件下均取得了较好的效果。 (3)提出了一种基于组合分类模型的中文浅层语义分析方法,从优化机器学习方法的层面进一步对浅层语义分析进行完善。本文在前面提出的多重句法特征集合基础上,采用五种机器学习方法:K近邻、决策树、感知器、最大熵以及支持向量机,在训练语料上构造了五个语义角色分类模型,作为组合模型中的基本单元。接着通过一种输入相关的选通系统将五个基本分类模型有机地整合到一起,通过调整选通系统中的参数协调各个基本分类模型,控制组合模型的输出结果。最后采用EM算法在训练语料上对选通系统中的参数进行学习,在通用语料库上进行了相关的训练和测试,结果表明该方法能够显著地提高中文语义角色分析的效果。 (4)最后,本文提出了探索性的基于计算认知模型的中文浅层语义分析方法,以认知理论为基本依据,通过模拟人类的语言理解过程,从本质上来研究中文浅层语义分析。首先设计了一种面向计算认知模型和文景转换的命题语义表示形式,这种命题形式能够简单高效地表达自然语言中蕴涵的语义信息。本文将该命题形式作为认知模型中的基本单元,然后在认知模型网络上模拟人脑中神经元的扩散激活机制,使符合上下文约束的命题节点不断被加强,不符合上下文约束的节点逐渐被削弱,根据当网络达到稳定状态时的最终激活命题节点,即可还原出谓词相关的语义分析结果。


知网文化
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978