收藏本站
《哈尔滨工业大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计学习的中文组块分析技术研究

孙广路  
【摘要】: 随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。 大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分: 第一,对于中文组块的定义和语料库建设方法进行研究,建立了三种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第三种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。 第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。 第三,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。 第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姜维;关毅;王晓龙;;基于条件随机域的词性标注模型[J];计算机工程与应用;2006年21期
2 徐中一;胡谦;刘磊;;基于CRF的中文组块分析[J];吉林大学学报(理学版);2007年03期
3 冯冲;陈肇雄;黄河燕;张亮;王江伟;;基于条件随机域的复杂最长名词短语识别[J];小型微型计算机系统;2006年06期
4 杨志豪;林鸿飞;李彦鹏;;条件随机域与上下文线索结合的生物实体识别[J];计算机工程;2008年07期
5 朱文球;刘强;;基于条件随机域的上下文人类动作识别[J];计算机工程与应用;2008年28期
6 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期
7 别致;周俊生;陈家骏;;基于SVM-Adaboost的中文组块分析[J];计算机工程与应用;2008年21期
8 武帅;;基于条件随机域模型的事实信息抽取方法应用[J];现代图书情报技术;2010年10期
9 马瑞民;马民艳;;基于CRFs的多策略生物医学命名实体识别[J];齐齐哈尔大学学报(自然科学版);2011年01期
10 史庆伟;赵政;鲍虎;;基于条件随机域的Web信息抽取[J];辽宁工程技术大学学报;2007年04期
11 陈建美;林鸿飞;杨志豪;;基于语法的情感词汇自动获取[J];智能系统学报;2009年02期
12 杨志豪;林鸿飞;李彦鹏;;基于编辑距离和多种后处理的生物实体名识别[J];计算机工程;2008年17期
13 孙广路;王晓龙;郎非;刘远超;;条件随机域模型及在语言分析系统中的应用[J];电机与控制学报;2008年01期
14 周晶;吴军华;陈佳;陈沈焰;;基于条件随机域CRF模型的文本信息抽取[J];计算机工程与设计;2008年23期
15 刘卫红;方卫东;张凌;;基于条件随机域的垃圾信息特征复原[J];计算机应用与软件;2010年07期
16 孙广路;王晓龙;刘秉权;关毅;;基于词聚类特征的统计中文组块分析模型[J];电子学报;2008年12期
17 宋锐;林鸿飞;常富洋;;中文比较句识别及比较关系抽取[J];中文信息学报;2009年02期
18 丁伟伟;常宝宝;;基于语义组块分析的汉语语义角色标注[J];中文信息学报;2009年05期
19 朱道辉;肖基毅;程阳;吴诗祥;;基于长距离依赖条件随机域的文本信息抽取[J];计算机应用与软件;2011年05期
20 尚福华;于剑光;李建平;;基于属性分组的条件随机域网络入侵检测模型[J];哈尔滨商业大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前6条
1 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 宋锐;林鸿飞;常富洋;;中文比较句识别及比较关系抽取[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 欧阳佑;李素建;;条件随机域模型和实验分析[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 于静;汉语句子的组块识别研究[D];大连理工大学;2008年
2 潘越群;时间表达式识别与归一化研究[D];哈尔滨工业大学;2008年
3 徐琳宏;基于语义资源的文本情感计算[D];大连理工大学;2007年
4 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
5 于剑光;基于条件随机域的入侵检测研究与应用[D];大庆石油学院;2009年
6 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
7 王琦;词典和机器学习相结合的生物命名实体识别[D];大连理工大学;2009年
8 肖清梅;汉语组块识别的研究与应用[D];大连理工大学;2009年
9 胡思磊;基于CRF模型的汉语介词短语识别[D];大连理工大学;2008年
10 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978