收藏本站
《中国海洋大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语依存句法分析方法的研究与实现

姚文琳  
【摘要】: 句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取、文本分类和自动文摘等自然语言处理系统都有着极其重要的意义。 句法分析是依赖于某种语法理论的,在形式语法体系中,依存语法逐渐成为研究人员重视的热点。依存句法分析技术也不断得到发展和完善,并在英语等印欧语言中取得较好的研究成果。但目前为止针对汉语在依存句法分析方面的相关研究并不多见,汉语的依存分析研究成果与比印欧语言逊色得多。为此,本文采用基于统计理论的学习方法,针对汉语特有的语法特点,对汉语的依存句法分析方法进行了研究和探索。本文主要采用决策式的依存句法分析方法,解决了汉语句法分析中存在的一些问题。本文工作的主要贡献和创新点如下: 1.提出并实现了一种针对汉语长句的决策式分析方法CLDP。该方法针对汉语复杂长句句法分析存在的困难,考虑一种“分而治之”的处理策略,采用分层分析的方法,把复杂的句法分析问题分解为几个易于处理的子问题,以降低分析难度,提高分析效率。本文提出并实现了非贪婪的考虑长距离依存的决策式汉语分析方法N-CLDP。该方法利用汉语句子中根的唯一性对长句进行了分割。实现时,利用机器学习方法SVM设计了一种高效的根搜索器Root-Searcher,该根搜索器Root-Searcher可以标记出每个句子的根结点,依据根结点,句子被分割成两个子句。对子句分别进行依存分析后,进行子句的连接。把两个子句的根结点合二为一,合并两个子依存结构,从而得到长句的完整的依存结构。实验数据表明,本文构造的根搜索器Root-Searcher具有较高的准确性。在长句占的比例较大的训练集和测试集上,本文的方法达到了较好的分析性能,有效降低了句子的复杂度,显著地提高了句法分析器的准确率。 2.提出并实现了一种基于二段式的子句依存分析方法TSP。本文针对决策式依存分析中存在的Early-reduce问题,设计并实现了二段式的子句依存分析方法。该方法采用了有效的特征组合,利用二段分析,特征复用等手段有效解决了汉语右依存中动词与动词之间,以及动词与介词之间的VP Early-reduce问题,并且降低了算法的贪婪性。另外,本文提出并实现了子句的双向分析策略BSP。根据分割后句子的特点,以及汉语语言所具有的投影性特征,提出了采用向前分析和向后分析相结合的策略。在分析时将从前向后与从后向前两种分析方向结合使用。实验中将二段式句法分析策略与一次分析进行了性能比较,并考察了句法分析方向对于分析结果的影响。实验结果表明本文的二段式的子句依存分析方法TSP提高了句法分析器的性能。子句的双向分析策略BSP也比单向分析获得了更好的分析效率。 3.提出并实现了一种基于介词短语右边界的自动识别的依存句法分析算法RPP。根据介词短语的语用特征,提出一种对介词短语的后续词进行分析的方法,相应得到介词短语右边界的识别方法。通对过介词短语的分析,有效解决了决策式分析方法在分析介词短语时存在的缺陷。避免了分析介词在长距离依存时,由于过早比较、提前决策依存关系出现的错误。实验结果表明本文实现的基于介词短语右边界的自动识别的依存句法分析算法RPP对汉语的介词的长距离依存分析是有效的。
【学位授予单位】:中国海洋大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
2 周惠巍;黄德根;李巍;;基于支持向量机的日语并列关系解析[J];大连理工大学学报;2007年06期
3 赵铁军,方高林,李生;英语介词短语附着决策的研究[J];高技术通讯;2001年03期
4 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期
5 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
6 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
7 李明琴,李涓子,王作英,陆大;中文语义依存关系分析的统计模型(英文)[J];计算机学报;2004年12期
8 李珩,朱靖波,姚天顺;基于SVM的中文组块分析[J];中文信息学报;2004年02期
9 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
10 党政法,周强;短语树到依存树的自动转换研究[J];中文信息学报;2005年03期
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
3 黄昌宁;李玉梅;;从树库的实践看句本位和中心词分析法的生命力[J];北京师范大学学报(社会科学版);2010年05期
4 秦颖;王小捷;钟义信;;级联中文组块识别[J];北京邮电大学学报;2008年01期
5 李良炎;;新的句法标注模型探索[J];重庆大学学报(社会科学版);2007年03期
6 谷胜伟;;基于赫夫曼树的SVM多分类器构造方法[J];滁州学院学报;2009年03期
7 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
8 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
9 周惠巍;黄德根;钱志强;杨元生;;短语结构到依存结构树库转换研究[J];大连理工大学学报;2010年04期
10 谌志群,周昌乐;汉语机器理解研究现状及展望[J];电脑学习;1999年02期
中国重要会议论文全文数据库 前10条
1 刘健刚;董静;;从符号学看标点在语音文本中的技术实现[A];2011'中国西部声学学术交流会论文集[C];2011年
2 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 邵艳秋;邱立坤;梁春霞;毛宁;;中文语义依存树库构建及自动分析技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 任登君;李珩;张俐;姚天顺;;基于词对齐的双语组块对齐[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 张运良;张全;;概念优先组合判断研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
2 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
5 陈为民;基于支持向量机的信用卡信用风险管理模型与技术研究[D];湖南大学;2009年
6 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
7 冯文贺;汉语连词及其相关结构的依存分析[D];武汉大学;2011年
8 汪梦翔;对象格语义范畴及其相关语法理论研究[D];华中师范大学;2012年
9 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
4 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
5 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
6 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
7 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
8 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 冯蕾;基于最优投影支持张量机的多分类算法研究[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李珩,谭咏梅,朱靖波,姚天顺;汉语组块识别[J];东北大学学报;2004年02期
2 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
3 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
4 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
5 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
6 李珩;杨峰;朱靖波;姚天顺;;基于增益的隐马尔科夫模型的文本组块分析[J];计算机科学;2004年02期
7 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
8 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
9 应宏,蔡莲红;基于结构助词驱动的韵律短语界定的研究[J];中文信息学报;1999年06期
10 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前2条
1 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
【相似文献】
中国期刊全文数据库 前10条
1 杨思春,陈家骏;汉语自动句法分析中结构歧义分析与研究[J];昆明理工大学学报(理工版);2005年02期
2 邵银波,贺玲,秦江敏;BMP神经网络在句法分析中的运用[J];空军雷达学院学报;2000年04期
3 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
4 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期
5 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
6 亓超;张美娜;迟呈英;战学刚;;基于合一的链接文法[J];计算机应用与软件;2008年04期
7 王立群;;依存关系正确理解的基础上的日中翻译[J];电脑知识与技术;2009年28期
8 仲其智;姚建民;;低频词的中文词性标注研究[J];计算机应用与软件;2011年03期
9 李幸;宗成庆;;引入标点处理的层次化汉语长句句法分析方法[J];中文信息学报;2006年04期
10 王顺迁;叶大兴;;一个并行属性计值算法[J];同济大学学报(自然科学版);1990年04期
中国重要会议论文全文数据库 前10条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
9 曹海龙;孟遥;李生;赵铁军;;一个改进的头驱动英语句法分析模型[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
10 胡凤国;;一个简单人机对话系统的实现方法[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
4 北京京华英语学校 张占杰;英语培训切勿陷入“名师”误区[N];北京人才市场报;2005年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 本报记者 霍立峰;中科院免费大餐怎么吃[N];中国高新技术产业导报;2002年
7 贵州 王伟;用ORDER BY子句排序[N];电脑报;2004年
8 清华大学外语系 许建平;2005年考研英语阅读、翻译备考要点[N];中国教育报;2004年
9 ;句法语文学科召开工作研讨会[N];中国社会科学院院报;2003年
10 贵州 王伟;用GROUPBY子句分组[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
7 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年
8 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
9 洪淼;现代汉语连动结构研究[D];南京师范大学;2004年
10 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 任晓娜;基于统计的汉语依存句法分析研究[D];沈阳航空航天大学;2011年
2 王圆圆;基于机器学习的汉语依存句法分析优化研究[D];中国海洋大学;2013年
3 郎文静;规则与统计相结合的汉语依存句法分析技术研究及其应用[D];沈阳航空航天大学;2012年
4 郭江;依存句法分析的置信度研究[D];哈尔滨工业大学;2012年
5 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
6 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
7 金天;论汉语及英语中否定歧义的消除[D];广东外语外贸大学;2007年
8 吴志君;基于半监督学习的中文依存句法分析[D];哈尔滨工业大学;2012年
9 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
10 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026