收藏本站
《中国传媒大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语财经评论的修辞结构标注及篇章研究

乐明  
【摘要】: 篇章标注是国际语言资源建设的一个前沿内容。本文遵循国际篇章语料库的建设方法,通过先建立一个较大规模的以语篇为单位的汉语财经评论篇章语料库,然后在修辞结构理论(Rhetorical Structure Theory,RST)的指导下对语料进行了预处理、切分、标注、核查和统计分析,并研究了汉语篇章的修辞结构与表层语言信息之间的各种量化关系,试图为对比语言学和将来建立更大的、自动处理的篇章语料库做些基础工作。 在进行汉语篇章修辞结构树库建设的具体工作之前,我们首先从理论上比较了从英语研究发展出来的RST和汉语相关的传统复句、句群、语篇和文章学研究,认为两者在关于篇章结构的基本假设和很多具体问题的结论上都非常相似,但是RST理论在坚持语言的交际观、强调作者交际意图与篇章单元修辞意义的核心性地位的关联性、强调语言结构层级的同质性,以及篇章修辞结构的形式化表达等方面具有比较突出的特点。因此,在总结了RST汉语研究和国际篇章修辞结构树库的建设成绩之后,我们认为有可能也有必要利用该理论对汉语篇章进行基于语料库的实证研究。 为此,我们建立了一个含400篇,约80万字的汉语财经评论篇章语料库(Caijingpinglun,CJPL)。该语料库在语料选材上与英语WSJ-RST树库和德语的PCC树库有比较好的可类比性。不过由于语料直接取自网页,存在一些字符编码、文字编辑以及网页上传等问题,所以我们采取了各种比较谨慎的预处理步骤,将网页文档全部转换成有统一编码的文本文档,以保证后续处理的精度和效率。 在预处理程序后,标注者首先在文本文档的基础上(同时参考原始网页文档),用普通读者的眼光对全部篇章语料进行了基本信息标注,包括各篇文章的体裁、题材、标题、导语、开头、结尾、出处、作者、来源等,并籍此对语料有了较好的了解。 接着,我们依靠选定的篇章基本分析单元(Elementary Unit of Discourse Analysis,EUDA)边界标示符,由机器统一完成了语料的切分。在选定句号、问号、叹号、段落结束标记、分号、冒号、省略号和破折号等篇章单元边界标示符之前,我们对语料中标点符号的分布进行分析。分析显示这些标点符号不仅在绝大多数情况下正确地标示了篇章单元的边界,而且能够保证后续的关系标注具有较小的颗粒度。更为重要的是,根据这些选定的篇章边界符号完成切分之后,我们不再需要对切分结果进行人工干预,只需对极个别切分结果进行粘合,保证了处理的效率和正确率。 在完成切分之后,标注者试验性地标注了所有文章各篇章单元之间的修辞关系,以至整个篇章的修辞结构树构造,从修辞结构角度对语料有了更进一步的理解。在该阶段结束的时候,我们筛除了2个存在严重编辑问题的文档和3个以口语性对话为主的长篇电视采访记录文档。 从评论语料的实际出发,我们定义了12大组47种汉语的修辞关系和19种新闻篇章组织元素,并拟定了汉语篇章关系标注的工作守则,其中包括可能存在歧义时的修辞关系优先选用原则和一些特殊现象的处理方案。在设立关系和对关系进行定义的时候,我们不仅参考了多个英语、德语、汉语版本的修辞关系集及定义,也参考了汉语复句、句群和语篇研究的相关成果。另外,我们还对一些可能有所争议的切分标记和关系定义进行了一项心理语言学的调查。根据调查结果,又调整了部分关系的定义和关系优先选用顺序。 在上述工作的基础上,我们按随机平均抽样原则选取了197篇语料,分2遍完成了对其中较短的97篇文章在EUDA(相当于分号句)及以上层级的修辞关系标注,为每个篇章建立一个覆盖整个文本的篇章修辞结构树,并执行了树结构有效性核查。根据两个版本的修辞结构标注,我们统一了最后的标注(第3遍),然后进行了随机抽样的标注者一致性测试。 我们还在不参考修辞结构标注结果的情况下,为97篇语料单独标注了句间篇章提示标记(包括句间关联词语、句间回指指示词和回指代词、有篇章作用的标点符号)。 之后,我们利用这些标注结果提取了数据,分析了这些评论语篇各个层级的结构特点、修辞关系的分布和篇章提示语的修辞功能。这项语料库驱动的数据分析显示, 1)遵循一定的原则,汉语财经评论绝大多数(93.1%)都能用树结构作大致的形式化表示; 2)我们所定义的修辞关系基本上都能被反复地用来连接在各个层级的篇章单元,显示出汉语篇章具有较好的结构层级同质性。 3)扩展的经典RST关系集(Mann and Thompson 1988,Mann 2005)在汉语财经评论的篇章单元间关系的覆盖比例为90.4%,余下的关系也基本都可以用已知关系的核心性变异类型来表示。 4)汉语财经评论的总体篇章树形,在CJPL语料库中以后段对第一段展开分说的头并卫结构(14.4%)为最多,其次是后段对第一段展开分说并逐步增加其他意思的头降卫结构(13.4%)、先述后评的中降卫结构(13.4%)和逐步展开最后得出结论的尾升卫结构(11.3%)。 5)在CJPL语料库中,全文总体表示证明和评价的占53.6%,全文总体表示阐述、解释信息的占46.4%。这一数据说明国内新闻界对评论的社区定义与语言学界从理论角度对论证文的定义有一定的区别。 6)虽然财经评论正文中的修辞关系有很多是多核心的,但单核心的核心-卫星模式仍占主导地位,占全部关系总数的64.6%。 7)和汉语复句前偏后正的主导性结构不同,汉语评论文在分号句及以上层次中卫星-核心结构与核心-卫星结构的比例为46.16%:53.84%,核心性和篇章单元的次序之间没有明显的关联。 8)以议论为主的“媒体财经评论”和以消息报道为主的“新闻联播”在各种关系的分布频率上有些差异,显示出语类对于修辞关系分布的影响。 9)汉语评论语篇使用句间关联词语的频率28.5%,其中使用频率最高的连词为“而”;句间关联词语被较多地用于并加-M关系和罗列-M关系; 10)一些关系,如附加-S关系、让步-S/-N关系、罗列-M关系等,常有关联词语标示;而另一些关系,如方式-S关系、引述-S关系、评价-M关系、解答关系-M/-S等,几乎没有关联词语表示。 11)一些常见的关联词语在语料库中都有句内句外的用法,只是分布上有些差异,有些主要在句间(如“然而”),有些主要在句内(如“如果”)。 12)语篇中存在一些句间关联词语连用的现象,大致可以分为强调(或缓和)语气、交叉限制关系和分辖上下文三种类型,其中最后一种类型实际上就是多重复句的关系间包孕能力在句以上单元间的扩展。 13)汉语财经评论文最常用的句间回指指示词是“这”和各种带“这”的词语。 14)一些标点符号,如问号、分号、冒号等,在汉语篇章中有明显的标示篇章单元间修辞关系的作用,而且与修辞关系核心性的关联度很高。 15)虽然一些篇章提示标记(包括关联词语、回指词、标点符号和段落标记等)在汉语篇章中与某些修辞关系有比较强的关联性,但它们之间并不存在一种一一对应的映射关系。 16)利用英、德、西等其他语言RST研究的数据,我们发现,修辞关系的有标频率在很多语种中都比较低,而且都常出现在较低的篇章层级单元之间。一些修辞关系,如让步、条件等有标的比例在各个语种中都比较高,而另一些关系,如评价、背景、详述、解答等的有标比例则都比较低。不过具体的比例和各种标记具体所能限制的关系的类型在各个语种之间略有不同。 17)汉语篇章结构树的局部子树中存在一种比较特殊的螺旋型的结构。这一结构形式中,一个篇章单元总是与一个离其较远的单元发生修辞关系,而不是与其直接邻居发生修辞关系。如果这就是Kaplan(1966)所谓的圆周型(Circular)结构,且如果将来更多的语篇标注结果显示这一局部子树的结构形式有比较显著的频率,那么将说明Kaplan(1966)关于汉语篇章圆周型结构的假设有其正确的一面。 18)汉语篇章修辞结构的层级同质性、汉语篇章结构中核心-卫星模式的主导地位以及经典RST关系集在汉语中的覆盖率都从实证角度说明了RST理论在汉语中的可移用性。 虽然汉语财经评论树库的建设目前只取得了阶段性的进展,但我们认为,这一研究在中文信息处理、篇章理论研究和社会文化研究等方面都具有现实意义。 首先,汉语财经评论树库的构建,可以为自然语言工程界提供篇章剖析所需的各类先验系数,帮助他们改进现有的汉语自动文摘模型,并为现有汉语自动篇章剖析算法提供训练和测试的平台。有了汉语RST树库,也就有了借鉴应用英语、德语等其他语种的篇章处理技术的物质基础,将帮助中文信息处理尽快地缩小与其他语言信息处理的差距。 其次,我们对汉语财经评论语料的标注研究,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语中的可移用性。同时,我们也从篇章修辞结构的角度,拓展了汉语篇章提示标记的研究视野。如果有类比性好的语料库,也可以进行语言对比研究、语类对比研究等。 另外,虽然语料库建设目前还很少用来为人文社会科学提供资源,我们还是可以预见它的广阔用途,比如基于大规模语料库的语用事实挖掘。在语料库基础上对汉语新闻评论做语言学性质的研究也会是一片广阔的天空。
【学位授予单位】:中国传媒大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:H15

【相似文献】
中国期刊全文数据库 前10条
1 严靖;;再求新声于异邦——读任洪渊《汉语红移》兼谈新视野中的现代汉语问题[J];励耘学刊(文学卷);2010年02期
2 王震;;现代汉语语气词研究评析[J];新乡学院学报(社会科学版);2011年03期
3 赵妍;;现代汉语形容词特征探究[J];辽宁教育行政学院学报;2011年05期
4 加晓昕;;现代汉语单音色彩词的类别探讨[J];天府新论;2011年05期
5 王宇衡;;论网络语言对现代汉语的影响[J];现代语文(语言研究版);2011年08期
6 耿国锋;;新闻专业“现代汉语”教改的探索[J];教育探索;2011年06期
7 孙福婷;;“找”字的语法化考察[J];现代语文(语言研究版);2011年07期
8 金瓯;;从语言的发展分析校园流行语现象[J];哈尔滨市经济管理干部学院学报;2004年04期
9 申芳;;现代汉语体貌的相关问题述评[J];现代语文(语言研究版);2011年08期
10 马婷婷;;关于对外汉语专业现代汉语课程教学的思考[J];襄樊学院学报;2011年06期
中国重要会议论文全文数据库 前10条
1 孙现瑶;付莉;;《人民日报》50年来文章标题的语言变化[A];语言与文化研究(第二辑)[C];2008年
2 李志江;;谈现代汉语通用字部首的定位[A];中国辞书论集2000[C];2000年
3 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 应学凤;;现代汉语单音节反义词音义象似性考察[A];江西省语言学会2006年年会论文集[C];2006年
5 陈振宇;陈振宁;;怎样计算现代汉语句子的时间信息[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 文贵良;;文学汉语:现代想像与当代生长[A];当代中国:发展·安全·价值——第二届(2004年度)上海市社会科学界学术年会文集 (下)[C];2004年
7 徐赳赳;;现代汉语篇章中启后性分析[A];和谐社会:社会建设与改革创新——2007学术前沿论丛(下卷)[C];2007年
8 王萌;俞士汶;段慧明;孙薇薇;;基于语料统计的现代汉语量名搭配研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 龚千炎;;现代汉语的时间系统[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 陈群秀;李坚;王健;;信息处理用现代汉语语义分类词典的设计与实现[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 介子平;让现代汉语不逾矩[N];山西日报;2003年
2 本报记者 杨耕耘 见习记者 韩晓玲;现代汉语发展的第二次高峰[N];湖北日报;2000年
3 章红雨;《现代汉语小语典》配多媒体光盘扩容[N];中国新闻出版报;2008年
4 周建设 主编;现代汉语教程[N];中国教育报;2002年
5 高玉陈莉琳;现代文学是现代汉语的文学[N];文艺报;2008年
6 北京师范大学,辽宁师范大学 刁晏斌;引入现代汉语史的观念[N];社会科学报;2007年
7 李国华;也说“楼××”类ABB式新词[N];语言文字周报;2010年
8 许嘉璐;为什么要把二十四史译成现代汉语[N];光明日报;2004年
9 张稷;瘦身版“现汉”新装上阵[N];中国新闻出版报;2008年
10 牡丹江师范学院中文系 张颖;现代汉语课程:着力提高学生语言素质和能力[N];中国教育报;2007年
中国博士学位论文全文数据库 前10条
1 尹海良;现代汉语类词缀研究[D];山东大学;2007年
2 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
3 张红军;共生与互动[D];山东大学;2007年
4 刘文欣;现代汉语责训句研究[D];黑龙江大学;2010年
5 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
6 马春华;现代汉语欧化结构研究[D];安徽大学;2010年
7 安美娜;现代汉语高频语素复合词研究[D];西南大学;2010年
8 孙凡;现代汉语结果体研究[D];吉林大学;2012年
9 刘街生;现代汉语同位组构研究[D];华中师范大学;2000年
10 吴春红;现代汉语位事范畴研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
2 蔡霞;基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D];浙江工业大学;2003年
3 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年
4 王会彩;面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用[D];西安电子科技大学;2010年
5 焦海涛;机械设计领域自然语言理解知识库构建研究[D];西安电子科技大学;2004年
6 杨俊梅;产品设计中含有特殊动词复合句的自然语言理解的研究与实现[D];西安电子科技大学;2005年
7 李海林;自然语言理解及其在机务信息规范化中的应用[D];南京航空航天大学;2004年
8 亿珍珍;面向产品设计的自然语言理解语义分析研究[D];西安电子科技大学;2004年
9 赵亮;自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年
10 胡树楷;机械产品设计中的自然语言理解复合句语义分析[D];西安电子科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026