收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向文景转换的中文浅层语义分析方法研究

李世奇  
【摘要】:本文针对中文浅层语义分析中的关键问题展开了全面深入的研究。浅层语义分析是自然语言处理领域里的研究要点,基于语言学特征和统计机器学习的方法是目前浅层语义分析的主流方法,该方法中最关键的因素是特征的选择和机器学习方法的优化。另外,本文中的浅层语义分析主要面向文景转换这项应用任务,文景转换是指把自然语言文本通过计算机自动转换成为相应的场景或动画,是一门具有重要理论和实际意义的新兴研究方向。本文首先对文景转换中必要的共指消解模块进行了研究;然后从特征选择角度对浅层语义分析方法进行了探索,发掘出在浅层语义分析中具有较强区分能力的句法特征;接着提出一种组合分类模型的方法对浅层语义分析进行完善;最后提出一种基于计算认知模型的方法,从更深层面对中文浅层语义分析进行了探索。具体地说,本文主要包括以下研究内容: (1)首先提出一种基于自适应谐振理论(ART)网络的无指导中文名词短语共指消解方法。该方法充分利用了名词短语自身特征,通过调整ART网络模型中的参数动态地控制聚类数量,有效解决了目前聚类共指消解中输出类别数目难以确定这一难题。另外聚类算法中还采用了一种基于信息增益率的特征选择方法,减少了区分度较弱特征给聚类所带来的干扰。该方法在保证了共指消解准确率的前提下,具有较好的可移植性和鲁棒性,突破了目前文景转换中的浅层语义分析在预处理阶段的主要障碍。 (2)本文从语言学特征层面深入地研究了中文浅层语义分析,提出一种基于多重句法特征的中文浅层语义分析方法。现有研究表明,对特征集合进行改进是目前提高浅层语义分析性能最有效的方法。本文提出将短语结构句法和依存句法两种类型的句法特征进行融合,为浅层语义分析提供了更加丰富和互补的句法信息。然后在这两个句法特征集合基础上,提出一种基于统计的组合特征选择方法,根据各个特征在语料库中的分布状况,快速有效地筛选出适于各分类阶段的组合特征。最后利用短语结构句法特征、依存句法特征以及在前两者基础上构造的组合特征进行语义分析相关的分类。实验表明,本文提出的多重句法特征集合能够有效地提高中文浅层语义分析的性能,在正确句法分析以及自动句法分析条件下均取得了较好的效果。 (3)提出了一种基于组合分类模型的中文浅层语义分析方法,从优化机器学习方法的层面进一步对浅层语义分析进行完善。本文在前面提出的多重句法特征集合基础上,采用五种机器学习方法:K近邻、决策树、感知器、最大熵以及支持向量机,在训练语料上构造了五个语义角色分类模型,作为组合模型中的基本单元。接着通过一种输入相关的选通系统将五个基本分类模型有机地整合到一起,通过调整选通系统中的参数协调各个基本分类模型,控制组合模型的输出结果。最后采用EM算法在训练语料上对选通系统中的参数进行学习,在通用语料库上进行了相关的训练和测试,结果表明该方法能够显著地提高中文语义角色分析的效果。 (4)最后,本文提出了探索性的基于计算认知模型的中文浅层语义分析方法,以认知理论为基本依据,通过模拟人类的语言理解过程,从本质上来研究中文浅层语义分析。首先设计了一种面向计算认知模型和文景转换的命题语义表示形式,这种命题形式能够简单高效地表达自然语言中蕴涵的语义信息。本文将该命题形式作为认知模型中的基本单元,然后在认知模型网络上模拟人脑中神经元的扩散激活机制,使符合上下文约束的命题节点不断被加强,不符合上下文约束的节点逐渐被削弱,根据当网络达到稳定状态时的最终激活命题节点,即可还原出谓词相关的语义分析结果。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前2条
1 刘挺;车万翔;李生;;基于最大熵分类器的语义角色标注[J];软件学报;2007年03期
2 王厚峰;汉语篇章的指代消解浅论[J];语言文字应用;2004年04期
【共引文献】
中国期刊全文数据库 前10条
1 廖珣;;基于Kmeans和CBR方法的高校就业预测模型应用研究[J];人力资源管理;2010年03期
2 鲁程;;基于图书馆读者满意度的知识发现研究[J];情报理论与实践;2007年05期
3 麦范金;李东普;甘国庆;;基于指代消解的自动文摘方法研究[J];情报理论与实践;2010年10期
4 刘平兰;数字图书馆中基于机器学习的手写汉字识别的研究[J];情报杂志;2004年03期
5 柳炳祥,章义来,刘少兰,李云辉,许益,邓力群;数据挖掘在电子政务数据分析的应用研究[J];情报杂志;2005年03期
6 张美娜;亓超;迟呈英;战学刚;;基于汉语篇章结构的自动摘要方法研究[J];情报杂志;2007年08期
7 林海萍;梁卫权;;基于数据挖掘技术的入侵检测系统研究[J];情报杂志;2008年06期
8 陆瑶;张杰;冯英俊;;基于判定树的项目R&D中的数据挖掘质量测评研究[J];情报杂志;2009年05期
9 祁瑞华;杨德礼;胡润波;;基于特征缺失补偿最大熵模型的文本分类[J];情报杂志;2010年05期
10 路青;崔新春;胡艳波;;基于文献计量的国内语义角色标注研究现状分析[J];情报杂志;2012年04期
【同被引文献】
中国期刊全文数据库 前2条
1 杜云艳,苏奋振,仉天宇,杨晓梅,周成虎;基于案例推理的海洋涡旋特征信息空间相似性研究[J];热带海洋学报;2005年03期
2 曾新;谭曼玲;;基于语言描述的三维虚拟场景构建研究[J];软件;2011年11期
【二级参考文献】
中国期刊全文数据库 前7条
1 王厚峰,梅铮;鲁棒性的汉语人称代词消解[J];软件学报;2005年05期
2 刘挺;车万翔;李生;;基于最大熵分类器的语义角色标注[J];软件学报;2007年03期
3 张松懋;含无序产生式的故事分析文法的研究[J];软件学报;1994年01期
4 金小刚,鲍虎军,彭群生;计算机动画技术综述[J];软件学报;1997年04期
5 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
6 袁毓林;;论元角色的层级关系和语义特征[J];世界汉语教学;2002年03期
7 高明乐;题元角色与题元角色理论[J];现代外语;2003年02期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026