收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语组块识别的研究

罗雪兵  
【摘要】: 随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析,这样将词级的处理转换为组块级的处理,降低了句法分析的难度。本文的目的就是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。 论文阐述了组块识别的研究现状及研究意义,给出了本文研究的组块定义及组块分类,研究并实现了基于特殊隐马尔可夫模型(Hidden markov model,HMM)、支持向量机(Support vector machine,SVM)以及条件随机域(Conditional random fields,CRF)的组块识别系统,应用特征扩展和voting组合法改善组块识别结果。 文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析,发现特殊符号、并列关系以及较粗的词性会导致识别错误,并针对这些问题提出了一个特征扩展方法。在此基础上,给出了一种基于标点符号分割段的voting法结合三种统计模型,进一步改善了组块的识别效果。 实验表明,三种基本组块识别模型都取得了较好的结果,其中特殊HMM组块识别结果的F值为86.01%,SVM组块识别结果的F值为90.89%,CRF组块识别结果的F值为91.08%,从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后,组块识别结果的F值提高到91.39%。 本文的研究成果可应用于实际翻译系统中,达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
2 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
3 王达;张坤;;基于支持向量机和转换的错误驱动学习方法的组块识别[J];南阳师范学院学报;2009年06期
4 邹宏梅;王挺;;SVM和基于转换的错误驱动学习相结合的汉语组块识别[J];计算机工程与科学;2007年04期
5 姜维;关毅;王晓龙;刘秉权;;基于支持向量机的音字转换模型[J];中文信息学报;2007年02期
6 林煜明;李优;;基于SVM的句子组块识别[J];山东大学学报(理学版);2006年03期
7 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
8 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
9 别致;周俊生;陈家骏;;基于SVM-Adaboost的中文组块分析[J];计算机工程与应用;2008年21期
10 杨志豪;洪莉;林鸿飞;李彦鹏;;基于支持向量机的生物医学文献蛋白质关系抽取[J];智能系统学报;2008年04期
11 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
12 谭咏梅;姚天顺;陈晴;李珩;朱靖波;;基于SVM+Sigmoid的汉语组块识别[J];计算机科学;2004年08期
13 白妙青;郑家恒;;利用支持向量机实现动词-动词搭配的自动标注[J];计算机工程与应用;2005年35期
14 陈频;;基于自然语言处理的中文科技论文特征提取研究[J];电脑知识与技术(学术交流);2007年16期
15 汤步洲;王晓龙;王轩;;置信度加权在线序列标注算法[J];自动化学报;2011年02期
16 许旭阳;韩永峰;宋文政;;事件抽取技术的回顾与展望[J];信息工程大学学报;2011年01期
17 李丹;张兆信;宗占国;;利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J];煤炭技术;2011年05期
18 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
19 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
20 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
中国重要会议论文全文数据库 前10条
1 符敏;程德福;张广峰;;基于支持向量回归的声音转换[A];第八届全国人机语音通讯学术会议论文集[C];2005年
2 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
4 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
6 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
7 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
8 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
9 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
10 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
2 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
3 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
4 张岩;基于语义角色的句子语义倾向判断[D];北京邮电大学;2008年
5 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
6 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
7 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
8 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
9 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
10 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978