收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文组块间依存关系分析

尹鹏  
【摘要】:句法分析是机器翻译的核心部分,而依存关系分析又是一种重要的句法分析方法,依存关系分析所成生的依存关系树即可以表示词与词之间的深层联系又可以节省存储空间。本文研究了使用支持向量机(SVM)进行中文依存关系识别的方法。 因为组块分析可以判断出确定性高的部分结果,减少句法分析中的歧义,所以本文在组块基础上进行依存关系分析,为了使句子中的每个词都属于且仅属于一个组块,所以扩展了自然语言处理实验室原有的六种组块类型,使组块类型扩展到十二种。 在依据依存公理的基础上,制定了一套中文组块间依存关系体系,共定义了二十四种组块间的依存关系类型,为依存关系语料库的制作提供了标准。 本文分别使用了确定性分析算法和非确定性分析算法配合SVM分类器进行中文组块的依存关系识别,因为Nivre算法已经成功的应用于英文的依存关系分析,又因为英文和中文在句法特点上具有一定的相似性,所以本文采用Nivre算法作为中文组块依存分析的确定性算法。根据中文组块的特点本文设计了非确定性算法,其基本思想为,对句子中任意的两个组块,使用SVM分类器判断它们之间的依存关系,并得到他们之间的依存系数,即两组块之间的依存关系的强弱,然后为每个组块选取依存系数最大的节点作为支配节点,最后消除交叉依存和循环依存,输入一颗完整的依存关系树。 由实验得出,使用确定性算法的正确率为75.664%,使用非确定性算法的正确率为82.574%,可以看出对于中文组块依存关系分析来说,非确定性算法的性能要好于确定性算法,本文最后还分析了导致错误分析的部分原因和主要的错误类型。
【关键词】:句法分析 依存关系 组块 支持向量机
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 引言8-12
  • 1 中文组块划分标准12-17
  • 1.1 针对组块的研究12-13
  • 1.2 本文对组块的界定13-17
  • 2 中文组块依存体系17-25
  • 2.1 制定中文依存关系体系的意义及研究现状17-18
  • 2.2 中文组块间依存关系体系18-25
  • 3 机器学习与支持向量机25-35
  • 3.1 什么是机器学习25-26
  • 3.2 机器学习发展史26-28
  • 3.2.1 通用学习系统的研究26-27
  • 3.2.2 基于符号表达的概念学习系统研究27
  • 3.2.3 基于知识的学习系统研究27-28
  • 3.2.4 联接学习和符号学习的深入研究28
  • 3.3 机器学习分类28-31
  • 3.3.1 基于基本学习策略分类29
  • 3.3.2 根据获取的知识表达分类29-30
  • 3.3.3 按应用领域分类30
  • 3.3.4 按系统性分类30-31
  • 3.4 支持向量机(SVM)31-35
  • 3.4.1 最优超平面31-32
  • 3.4.2 构造最优超平面32-33
  • 3.4.3 支持向量机33-35
  • 4 依存关系分析35-43
  • 4.1 语料标注规范35-36
  • 4.2 分析算法36-43
  • 4.2.1 Nivre算法37-40
  • 4.2.2 非确定性算法40-41
  • 4.2.3 两种依存分析算法的比较41-43
  • 5 实验43-55
  • 5.1 实验数据43
  • 5.2 评估函数43
  • 5.3 使用确定性算法的实验结果43-46
  • 5.4 使用非确定性算法的实验结果46-47
  • 5.5 训练语料规模对试验结果的影响47-48
  • 5.6 谓语中心词对试验结果的影响48-49
  • 5.7 错误分析49-55
  • 结论55-56
  • 参考文献56-58
  • 附录A 按代码的字母顺序排列的标记集58-62
  • 攻读硕士学位期间发表学术论文情况62-63
  • 致谢63-64
  • 大连理工大学学位论文版权使用授权书64

【引证文献】
中国硕士学位论文全文数据库 前2条
1 刘跃红;问句依存句法及语义分析研究[D];昆明理工大学;2011年
2 杨洋;基于SVM的确定性中文依存关系解析[D];大连理工大学;2006年
【参考文献】
中国期刊全文数据库 前10条
1 李珩,谭咏梅,朱靖波,姚天顺;汉语组块识别[J];东北大学学报;2004年02期
2 郭艳华,周昌乐;一种汉语语句依存关系网分析策略与生成算法研究[J];浙江大学学报(理学版);2000年06期
3 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
4 卢虎,李彦,肖颖;支持向量机理论及其应用[J];空军工程大学学报(自然科学版);2003年04期
5 李珩,朱靖波,姚天顺;基于SVM的中文组块分析[J];中文信息学报;2004年02期
6 张敏,罗振声;语料库与知识获取模型[J];中文信息学报;1994年01期
7 周明,黄昌宁;面向语料库标注的汉语依存体系的探讨[J];中文信息学报;1994年03期
8 刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期
9 李向宏,王丁,黄成哲,雷国华;自然语言句法分析研究现状和发展趋势[J];微处理机;2003年02期
10 刘海涛;依存语法和机器翻译[J];语言文字应用;1997年03期
【共引文献】
中国期刊全文数据库 前10条
1 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
2 刘海涛;;翻译的复杂网络视角[J];北华大学学报(社会科学版);2010年04期
3 王淑芳;于芙蓉;;LS-SVM在烟气轮机振动故障诊断中的应用研究[J];北京石油化工学院学报;2012年02期
4 秦颖;王小捷;钟义信;;级联中文组块识别[J];北京邮电大学学报;2008年01期
5 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
6 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
7 谌志群,周昌乐;汉语机器理解研究现状及展望[J];电脑学习;1999年02期
8 王立群;;依存关系正确理解的基础上的日中翻译[J];电脑知识与技术;2009年28期
9 焦合军;刘卫华;;煤炭上市公司财务预警与实证分析[J];电脑知识与技术;2011年08期
10 舒小敏;杨建刚;;支撑向量机的优化算法及实现[J];福建电脑;2008年01期
中国重要会议论文全文数据库 前10条
1 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 刘彬;谭外元;;雅信CAT和东方快车机器翻译软件的分析及建议[A];第一届学生计算语言学研讨会论文集[C];2002年
6 张克亮;;简明状态句及其汉英句类和句式转换[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张运良;张全;;概念优先组合判断研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
8 邵艳秋;韩纪庆;刘挺;赵永贞;;基于依存分析的汉语文语转换停顿指数自动标注研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
10 张美娜;亓超;迟呈英;战学刚;;文本篇章结构的自动标引[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
3 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
4 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
5 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
6 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
7 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
8 王开义;基于支持向量机的农产品生产关键控制点发现研究[D];北京工业大学;2011年
9 冯文贺;汉语连词及其相关结构的依存分析[D];武汉大学;2011年
10 马建伟;精密电液伺服阀几何因素与性能指标映射关系研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
2 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
3 王凤林;受限域问答式自然语言数据库查询研究[D];昆明理工大学;2010年
4 刘智慧;基于搜索引擎的自动问答系统[D];西安电子科技大学;2010年
5 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
6 牛彦清;中文问答系统的问句分类研究[D];太原理工大学;2011年
7 袁苾瑜;基于依存树库的英语名词句法研究[D];浙江大学;2011年
8 许婷;面向中文信息处理的复句特征分析器的研究与实现[D];华中师范大学;2011年
9 包萨仁图雅;蒙古语简单句句法结构树库的建设[D];内蒙古大学;2011年
10 汪佳俐;化学计量学方法在分子光谱定量分析与原子光谱分类研究中的应用[D];上海师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
3 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
4 孙昂;江铭虎;贺一帆;陈林;袁保宗;;基于句法分析和答案分类的中文问答系统[J];电子学报;2008年05期
5 王树西,刘群,白硕;一个人物关系问答的专家系统[J];广西师范大学学报(自然科学版);2003年01期
6 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
7 袁小芳,王耀南,孙炜,杨辉前;一种用于RBF神经网络的支持向量机与BP的混合学习算法[J];湖南大学学报(自然科学版);2005年03期
8 郭艳华,周昌乐;一种汉语语句依存关系网分析策略与生成算法研究[J];浙江大学学报(理学版);2000年06期
9 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
10 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
中国重要会议论文全文数据库 前1条
1 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 许小星;基于标注语料库的现代汉语特殊句式语义分析[D];鲁东大学;2007年
2 计峰;基于序列标注的中文依存句法分析研究[D];复旦大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 卢朝华;基于语义分析的汉语短语识别方法研究[D];河南科技大学;2009年
2 刘洋;基于组合核函数的蛋白质交互关系抽取[D];大连理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
2 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
3 李珩;杨峰;朱靖波;姚天顺;;基于增益的隐马尔科夫模型的文本组块分析[J];计算机科学;2004年02期
4 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
5 赵军,黄昌宁;汉语基本名词短语结构分析模型[J];计算机学报;1999年02期
6 黄昌宁,苑春法,潘诗梅;语料库、知识获取和句法分析[J];中文信息学报;1992年03期
7 张玥杰,朱靖波,张跃,姚天顺;基于DOP的汉语句法分析技术[J];中文信息学报;2000年01期
8 张昱琪,周强;汉语基本短语的自动识别[J];中文信息学报;2002年06期
9 张敏,罗振声;语料库与知识获取模型[J];中文信息学报;1994年01期
10 罗振声,郑碧霞;汉语句型自动分析和分布统计算法与策略的研究[J];中文信息学报;1994年02期
【相似文献】
中国期刊全文数据库 前10条
1 李素建,刘群,白硕;统计和规则相结合的汉语组块分析[J];计算机研究与发展;2002年04期
2 刘世岳,李珩,张俐,姚天顺;Co-training机器学习方法在中文组块识别中的应用[J];中文信息学报;2005年03期
3 李晓望;自然语言的结构模型“M-Ph”[J];南京航空航天大学学报;1988年S1期
4 刘世龙,朱广堂;输电铁塔三维模型生成的改进[J];微机发展;2003年S2期
5 侯晓辉,陈堃銶,贾娟,杨清清;基于设计模式的数据库出版系统的框架模型[J];小型微型计算机系统;2004年11期
6 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期
7 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
8 王志敏;文化与审美不是一回事[J];现代传播-北京广播学院学报;1997年01期
9 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
10 陈晓明,周渝;汉语部分句法分析的研究和发展趋势[J];贵州大学学报(自然科学版);2004年04期
中国重要会议论文全文数据库 前10条
1 范模;李达;马巍巍;易丛;白雪平;;南海超大型组块浮托的总体设计与关键技术[A];第十三届中国科协年会第13分会场-海洋工程装备发展论坛论文集[C];2011年
2 左胜;;秦皇岛32-6油田井口平台组块吊装工艺[A];2003年度海洋工程学术会议论文集[C];2003年
3 刘超;刘全刚;郭宁;李挺;;海洋平台建造过程中的牵引滑移研究[A];第十五届中国海洋(岸)工程学术讨论会论文集(下)[C];2011年
4 李素建;刘群;;汉语组块的定义和获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 刘明爽;胆雯;;渤中34-1N WHPC组块称重结构物设计及有限元分析[A];第十五届中国海洋(岸)工程学术讨论会论文集(下)[C];2011年
6 任登君;李珩;张俐;姚天顺;;基于词对齐的双语组块对齐[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 江荻;;现代藏语的句法组块与形式标记[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 刘世岳;李珩;张俐;姚天顺;;Co-training机器学习方法在中文组块识别中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王茂林;;自然口语中的韵律组块过程[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
10 洪德厚;黄丽珍;王海燕;卢家楣;袁军;张圣言;;短时记忆的最佳组决[A];中国心理学会第三次会员代表大会及建会60周年学术会议(全国第四届心理学学术会议)文摘选集(下)[C];1981年
中国重要报纸全文数据库 前10条
1 ;蓝疆号完成海上吊装[N];中国证券报;2003年
2 记者 齐芳;“顿悟”是怎么发生的[N];光明日报;2011年
3 记者 梁利华;北京应用透水树脂组块进行树池铺装[N];中国环境报;2004年
4 本报记者 殷元元;城在青山绿水间 人在鸟语花香中[N];黄山日报;2007年
5 本报记者  陈袆淼;亚洲最大海洋石油工程制造场地一期竣工投产[N];中国工业报;2006年
6 执笔 江荻;人文社会科学前沿扫描[N];中国社会科学院院报;2008年
7 记者 朱磊;亚洲最大海洋石油工程制造场地投产[N];经济日报;2006年
8 钱海燕;分组学词语 省时又高效[N];中国教师报;2005年
9 温偬;中海油青岛海工制造场地投产[N];中国船舶报;2006年
10 黄淮学院社会科学系 李郁清;游戏是儿童心智发展的起跑线[N];中国体育报;2008年
中国博士学位论文全文数据库 前10条
1 祁乐瑛;表象表征:心理旋转的实证探索[D];华东师范大学;2009年
2 王乃弋;数学算式结构加工的ERP研究[D];西南大学;2008年
3 关守义;内隐学习中的知识习得及其无意识性测量[D];华东师范大学;2012年
4 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
5 刘炜;基于数量适应的数量认知研究[D];浙江大学;2013年
6 王茂林;普通话自然话语的韵律模式[D];中国社会科学院研究生院;2003年
7 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
8 张兰兰;汉语阅读过程中心理词加工机制的实验研究[D];天津师范大学;2012年
9 唐菁华;内隐学习中知识及其意识水平测量[D];华东师范大学;2010年
10 孙华平;臂丛损伤神经移位术后运动皮层重组的功能磁共振研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 许建丽;不同知识经验水平对中文组块切分的影响[D];闽南师范大学;2013年
2 宋宏珂;工作记忆个体差异和记忆负荷对组块加工的影响[D];西南大学;2010年
3 王远芝;基于读音的高中英文单词字母块组块记忆的实验研究[D];闽南师范大学;2013年
4 吴福林;论组块在高中英语词汇教学中的运用[D];四川师范大学;2012年
5 魏媛;一种应用于文本信息隐藏的组块分析算法的设计与实现[D];西北大学;2012年
6 张宁;组块构建记忆策略训练提高初中学生英语词汇学习质量的应用研究[D];山东师范大学;2010年
7 王文玲;初中藏语文教材浅层句法分析[D];西北民族大学;2012年
8 吴苏红;基于依存关系的旅游景点评论文本倾向分析[D];山西大学;2011年
9 孙慧;基于组块分析的中文短语情感倾向研究[D];哈尔滨工业大学;2010年
10 袁超越;情感组块与机器学习相结合的文本倾向性分析[D];哈尔滨工程大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026