收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文自然语言理解中基于条件随机场理论的词法分析研究

熊英  
【摘要】: 随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的关键技术,统计语言模型作为当前连续语音识别技术的基石之一,离不开自然语言处理技术的支持。对于中文来说,中文词法分析是中文信息处理技术的基础和关键,它直接关系到后续的句法分析和语义理解,并最终影响到实际的应用系统。因此,它一直是目前中文信息处理研究领域的一个热点和难点。 本文系统地介绍了条件随机场(Conditional Random Fields,CRFs)模型及其在中文词法分析领域的应用,分析了目前主流的条件随机场模型训练准则和参数优化方法。然后以中文词法分析为应用背景,从区分性原理的角度研究了条件随机场训练准则,提出了基于条件随机场模型的交集型歧义消解方法,讨论了特定领域中的新词提取和词典优化算法,为中文词法分析的研究提供了新的方法和思路。最后简要阐述了中文词法研究在汉语语音识别中的应用。 首先,本文研究了条件随机场模型区分性训练准则。目前,条件随机场模型的参数训练准则主要是基于最大似然/最大后验概率,其训练的目标是使训练语料中正确标注序列的概率最大。而以此目标建立的模型并不能保证在实际的测试环境中可以找到最佳的标注序列,从而获得较高的标注正确率。故目前的训练准则与序列标注性能评价指标之间存在着不匹配的情况。针对这一问题,本文提出了一种新的区分性训练准则—最小标注错误(Minimum Tag Error,MTE)。该准则在每条候选路径中加入该条路径相对于参考路径的正确率权重,以训练语料平均正确率最大化为目标函数。为了有效地计算平均正确度,本文还提出了一种新的前-后向算法,推导了正确率期望求解方法。实验表明,该准则不仅使切分指标的F-score值略有上升,而且使词表外(OutOf Vocabulary,OOV)词的召回率显著提高,即该准则在未知词识别的能力上具有明显的优势。同时,该准则在命名实体识别方面的性能也获得了较大的提升。 其次,针对条件随机场等概率图模型不具备支持向量机(Support Vector Machine,SVM)那样良好的泛化能力,本文借鉴大间隔原理,提出了类似于大间隔思想的区分性条件随机场训练方法—增强型条件随机场(Boosted Conditional RandomFields,BCRF)。该方法不仅继承了传统CRFs凸函数的特性,保证了全局最优解,而且也融合了大间隔模型所具有的泛化能力,其内涵可理解为在正确标注序列和候选序列之间加入了一个“软间隔”,而该“软间隔”与两个序列间的汉明距离(候选序列中错误标注元素的个数)成一定的比例关系。实验结果表明,该方法与传统的最大后验概率方法相比具有明显的优势,不仅能够提高切分精度,而且能够提高OOV词和命名实体识别的能力。但与MTE方法相比,虽然其切分精度和识别性能略有下降,但其参数计算方法相对较简便,无需进行第二次前-后向算法。 再次,本文讨论了中文交集型歧义消解方法。利用SVM在分类问题上的卓越表现及其适用于处理高维数据的特点,研究了SVM在交集型歧义消解问题上特征的选取原则和表示方法。通过分析交集型歧义两种切分方式之间存在的差异,采用互信息、附属种类、二字词频和单字词频四种统计量进行特征表示和融合,比较了特征的不同表示方法对分类性能的影响。实验表明,特征的选择和表示方法对SVM分类性能的提高至关重要,具有互补特性的特征组成的高维特征向量可以在很大程度上提高SVM分类器的歧义消解能力。针对SVM方法在处理链长大于1的歧义字串时必须将其转化为多个链长为1的字串进行处理所带来的不便,本文提出了一种基于条件随机场模型的歧义消解方法,将传统的二值分类问题转化为序列标注问题。该方法不仅能同时处理任意链长的歧义字串,而且对于真歧义字串,可以充分利用上下文信息给出不同语言环境下正确的切分形式。实验结果表明,该方法取得了目前最佳的性能表现。 然后,讨论了特定领域中新词提取和词典优化算法。在缺少特定领域的训练语料情况下,有监督的机器学习方法不能很好地发挥其优势。基于词典的最大匹配切分方法虽然最简单有效,但由于缺乏特定领域的专业词典和新词汇的不断涌现,使得基于词典的切分算法在特定领域中的切分精度受到严重影响。本文以通用词典为初始词典,利用启发式排歧规则,在粗切分的基础上,提出了一种改进的新词提取和词典优化算法。该算法以语言模型困惑度最小化为新词提取标准,自动从候选集中提取新词,加入到初始词典得到适用于特定领域的扩充词典。为了计算候选词加入词典前后模型困惑度的变化,本文提出了一种简单有效的近似计算方法。实验结果表明,该算法不仅能提取很多特定领域的专业词汇,而且能有效地降低模型的困惑度,提高切分正确率。 最后,简单介绍了语言模型在语音识别系统中的应用,分析了中文词法研究对统计语言建模的作用及其对语音识别系统性能的影响。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 沈勤中;周国栋;朱巧明;孔芳;丁金涛;;基于字位置概率特征的条件随机场中文分词方法[J];苏州大学学报(自然科学版);2008年03期
2 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
3 王靖;徐向阳;符蓉;;一种优化的用于中文分词的CRF机器学习模型[J];微计算机信息;2010年12期
4 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
5 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
6 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
7 朱丹浩;王东波;谢靖;;基于条件随机场的介宾结构自动识别[J];现代图书情报技术;2010年Z1期
8 邓箴;;基于二维关联边条件随机场的Web信息抽取[J];价值工程;2010年34期
9 赵玉芹;刘琳;;条件随机场在手势识别中的应用研究[J];科技传播;2011年18期
10 于江德;樊孝忠;庞文博;余正涛;;基于条件随机场的语义角色标注(英文)[J];Journal of Southeast University(English Edition);2007年03期
11 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
12 钱小飞;;最长名词短语识别研究[J];现代语文(语言研究版);2009年07期
13 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
14 迟呈英;于长远;战学刚;;基于条件随机场的中文分词方法[J];情报杂志;2008年05期
15 章成志;苏新宁;;基于条件随机场的自动标引模型研究[J];中国图书馆学报;2008年05期
16 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
17 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
18 阴晋岭;王惠临;;词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J];现代图书情报技术;2009年03期
19 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
20 王明军;周俊;屠珺;刘成良;;基于条件随机场的大范围地形感知框架[J];机器人;2010年03期
中国重要会议论文全文数据库 前10条
1 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 宁伟;蔡东风;季铎;;基于条件随机场的冠词选择研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 魏玮;杜金华;徐波;;基于分层语块分析的统计翻译研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
4 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 张奇;细颗粒度情感倾向分析若干关键问题研究[D];复旦大学;2008年
7 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
8 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
9 郁生阳;基于能量最小化图割的图像与视频目标精确分割研究[D];上海交通大学;2009年
10 任柯燕;基于机器视觉的室外场景图像理解方法研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 张瑜;基于条件随机场的目标检测方法研究[D];西安电子科技大学;2014年
2 孟洪宇;基于条件随机场的《伤寒论》中医术语自动识别研究[D];北京中医药大学;2014年
3 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
4 柴桦;基于视频的人体运动识别方法研究[D];中南大学;2008年
5 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
6 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
7 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
8 曾冠明;基于条件随机场的中文命名实体识别研究[D];北京邮电大学;2009年
9 苗雪雷;基于条件随机场的汉语词义消歧方法研究[D];沈阳航空工业学院;2007年
10 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978