收藏本站
《山西大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语料库的短语结构分析研究

李福民  
【摘要】:汉语句法分析是中文信息处理的一个重要任务,通过句法分析可以使计算机理解句子的语法结构,进而指导计算机正确地理解句子的含义。然而当前汉语句法分析的性能并不能满足应用的需求,也严重影响了汉语句子的语义分析。目前汉语句法分析主要借鉴了性能较好的英文分析模型,但并没有达到相应的效果,因此如何结合汉语本身的特点改进分析性能是当前汉语句法分析的一个研究重点。近年来,依据描述汉语本身的语法体系构建的树库推动了汉语句法分析的发展,并有学者根据汉语句子结构的特点,提出了事件描述小句的概念,将句子看作是一个个事件描述小句构成的,将句子的结构分析转化为一个个事件描述小句的结构分析,重新定义了汉语句子的句法结构分析任务,并举办了多次相关的评测。本文就是依据评测的语料库,总结了汉语句法分析的任务,认识到短语结构分析在汉语句法分析中的重要地位,并将其作为本文的主要研究内容。 本文对短语结构分析的研究主要集中在如何消除短语结构歧义。本文通过对描述汉语的词组本位语法分析,认为歧义的产生是由于汉语词和短语的功能类型没有准确地反映其句法功能。因此,本文的研究重点就是如何准确确定短语的句法功能,以及如何依据语料库消解歧义。首先,通过对语料库的基本数据进行统计,对真实语言的复杂性有一个基本的认识。在语料库统计数据的指导下,本文以频度10,单中心词,不含非短语成分为标准选择了553个组合模式作为本文的研究对象,其描述了语料库中91.53%的短语实例。其次,考虑到短语的开放,无限的特点,本文采用规则的方式推导短语的句法功能并对短语内部组成成分进行约束,规则中通过复杂特征集可以灵活地表示各种形式的句法语义特征。因此,构建短语结构规则库是本文消解歧义的主要方式,依据规则库构建的特点,本文设计了符合规则编写的长期性,反复性特点的表格记录方式。在短语结构歧义消解方面,本文以语料事实为依据统计了5871个歧义格式,并以“潜在歧义论”的指导思想归纳歧义消解条件。最后,通过对部分存在歧义的短语实例进行歧义消解实验,取得了很好的效果,证明该方法是可行的,有效的。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前7条
1 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
2 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
3 周强;李玉梅;;汉语块分析评测任务设计[J];中文信息学报;2010年01期
4 冯志伟;论歧义结构的潜在性[J];中文信息学报;1995年04期
5 苑春法,黄锦辉,李文捷;基于语义知识的汉语句法结构排歧[J];中文信息学报;1999年01期
6 代印唐;吴承荣;马胜祥;钟亦平;;层级分类概率句法分析[J];软件学报;2011年02期
7 周强,黄昌宁;基于局部优先的汉语句法分析方法[J];软件学报;1999年01期
中国博士学位论文全文数据库 前1条
1 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
【共引文献】
中国期刊全文数据库 前10条
1 杜道流;指称、陈述理论及其对上古语法研究的意义[J];安徽大学学报;2004年01期
2 姜红;;具体名词和抽象名词的不对称现象[J];安徽大学学报(哲学社会科学版);2009年02期
3 施发笔;试论《水浒传》介词避复的技巧[J];安徽教育学院学报;2002年04期
4 阮绪和;形名偏正结构的语法功能[J];安徽教育学院学报;2003年02期
5 陶振伟;;“拿”的语法化[J];安徽教育学院学报;2006年04期
6 樊友新;;从“被就业”看“被”的语用功能[J];合肥师范学院学报;2010年02期
7 王德寿;走向成熟和繁荣的现代汉语语法研究——我国(大陆)近20年现代汉语语法研究综[J];安徽广播电视大学学报;1999年04期
8 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
9 王有卫;;语素文字说质疑[J];安徽广播电视大学学报;2010年03期
10 柳国栋;;《论语》重叠词略论[J];安徽职业技术学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万菁;姬东鸿;任函;冯文贺;;汉语复合名词短语特征结构的标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 陈波;姬东鸿;孙程;吕晨;;基于特征结构的汉语主谓谓语句语义标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李影;付莉;;韩国中小学生“是”的错序偏误分析[A];语言与文化研究(第四辑)[C];2009年
8 王仁强;;汉英词典词类标注与译义的对称性研究——兼评《ABC 汉英大词典》的词类标注与译义[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
9 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 吕晓玲;;闽南方言南安话的类结构助词“得”、“说”、“伊”、“通”[A];福建省辞书学会第五届会员代表大会暨第十九届年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
4 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
5 彭懿;英汉肤觉形容词的认知语义研究[D];湖南师范大学;2010年
6 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
7 李青;现代汉语把字句主观性研究[D];吉林大学;2011年
8 朱怀;概念整合与汉语非受事宾语句[D];吉林大学;2011年
9 王欣;汉日否定表达对比研究[D];吉林大学;2011年
10 莫启扬;语言中的时间性及其操作[D];西南大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
2 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
3 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
4 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
5 曹萍;府城官话研究[D];广西师范学院;2010年
6 旷金辉;汉英名词前置修饰语语序对比研究[D];上海外国语大学;2010年
7 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
8 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年
9 耿冰;“实现事件”结构词汇化模式的英汉对比研究[D];上海外国语大学;2010年
10 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 韩万衡;德国配价论主要学派在基本问题上的观点和分歧[J];国外语言学;1997年03期
2 李讷,石毓智;汉语动词拷贝结构的演化过程[J];国外语言学;1997年03期
3 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
4 朱德熙;;自指和转指——汉语名词化标记“的、者、所、之”的语法功能和语义功能[J];方言;1983年01期
5 陆俭明;“VA了”述补结构语义分析[J];汉语学习;1990年01期
6 杨成凯;关于汉语语法单位的反思──汉语语法特点散论之三[J];汉语学习;1994年06期
7 刘丹青;汉语语法单位分级理论的再探讨──杨成凯《关于汉语语法单位的反思》补议[J];汉语学习;1995年02期
8 郭锐;汉语语法单位及其相互关系[J];汉语学习;1996年01期
9 詹卫东;关于“NP+的+VP”偏正结构[J];汉语学习;1998年02期
10 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
中国重要会议论文全文数据库 前1条
1 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
2 杨国基;梁洪峻;;自然语言处理中基于短语结构的语法分析方法[J];微处理机;2009年06期
3 华沙宝,达胡白乙拉;对蒙古语语料库基本名词短语的定界与统计分析[J];中文信息学报;2005年05期
4 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
5 霍亚格;黄广君;;基于最大熵的汉语短语结构识别方法[J];计算机工程;2011年16期
6 魏善德;郑家恒;;汉语句法树库检索系统的设计与实现[J];电脑开发与应用;2006年11期
7 耿骞,汤艳莉;面向自然语言检索的短语结构索引[J];中国图书馆学报;2004年02期
8 王东波;朱丹浩;谢靖;;面向汉语自动句法分析的语法知识库构建[J];现代图书情报技术;2011年04期
9 吴云芳,常宝宝,詹卫东;汉英双语短语信息数据库的构建[J];术语标准化与信息技术;2003年04期
10 沙莎;胡发连;;基于概念结构的科技论文知识管理[J];情报学报;2007年06期
中国重要会议论文全文数据库 前10条
1 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 吴云芳;常宝宝;詹卫东;;汉英双语短语信息数据库的构建[A];第一届学生计算语言学研讨会论文集[C];2002年
3 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
4 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
5 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
6 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 王步康;王红玲;袁晓虹;周国栋;;基于依存句法分析的中文语义角色标注[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
9 胡日勒;宗成庆;徐波;;基于短语结构抽取和对齐的机器翻译模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
3 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
4 本报记者 陈青;如何让你的孩子能说会道[N];文汇报;2002年
5 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
6 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
7 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
8 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
9 ;探索普通话自然连续语音之规律[N];光明日报;2001年
10 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 王萍;英汉短语结构受限搭配的对比研究[D];上海外国语大学;2011年
2 彭艳;短语结构语法与依存语法的心理现实性研究[D];上海外国语大学;2007年
3 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
4 康忠德;居都仡佬语参考语法[D];中央民族大学;2009年
5 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
6 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
7 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
8 周惠巍;模糊限制信息检测中融合方法的研究[D];大连理工大学;2012年
9 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
10 何婷婷;语料库研究[D];华中师范大学;2003年
中国硕士学位论文全文数据库 前10条
1 李福民;基于语料库的短语结构分析研究[D];山西大学;2012年
2 谭科;基于实例的机器翻译方法(EBMT)的分析和研究[D];电子科技大学;2006年
3 潘静;英语学习型词典情态动词条目研究[D];广东外语外贸大学;2008年
4 温婷;基于语料库的中国英语学习者定语结构分布研究[D];大连海事大学;2006年
5 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
6 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
7 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
8 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
9 李春青;[D];电子科技大学;2004年
10 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026