收藏本站
《华中师范大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

语料库研究

何婷婷  
【摘要】: 本文以语料库本身为研究对象,以语言学理论为基础,以计算机软件工程和数据库的思想为指导,结合其他学科领域的理论和方法,在总结前人提出的各种有关语料库建设的理论、方法的基础上,紧密结合语料库开发的具体实例,全面、系统地研究了与语料库建设有关的理论与实践问题,讨论了如何为语言学研究的需要,建设语料库。 语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合。 语料库系统是以语料库为核心、包括计算机硬件、软件、语料库用户、语料采集和加工规则、语料库管理和应用程序的一个完整系统,其各部分互相影响、互相制约,共同决定语料库的质量、价值、应用水平。语料库系统这一概念的提出,有助于语料库建设时综合考虑有关的各方面的问题,形成一个有机的整体,从而提高语料库的质量和开发效率。 大型语料库的开发是一项软件工程,开发过程应遵循软件工程的一般原则和方法,但又要考虑自身的特点,故可以称为“语料库工程”。语料库工程的生命周期可以划分为7个阶段:语料库规划阶段、需求分析阶段、语料库设计阶段、语料采集阶段、语料库实现阶段、语料库标注阶段、语料库使用和维护阶段。 大型平衡语料库具有语料真实性、样本有限性、语料库代表性、库结构的平衡性等特点。语料真实性是语料库的立足之本,样本有限性是语料库不可回避的问题,代表性是语料库追求的目标,库结构的平衡性是达到目标的手段。 语料流是因特网上某一个或某几个站点源源不断产生的所有言语。当它流经监控程序时,监控程序获取可能需要的信息并保存起来,供后继的相关研究使用。可以根据需要,决定语料流中的语料是否需要长期保存。语料流的这一工作机制与人的大脑学习新知识、发现新知识的原理非常相似。基于语料流的监控语料库的建设,对于语言新现象的发现、报告有实际应用价值。 语料库的规范化是实现语料库的共享,减少语料库重复开发的关键;语料库的元数据规范化是语料库规范化工作中比较容易实现的一步,可以率先执行。语料库的元数据项可以分为六大类:语料知识版权信息、语料创建者背景信息、语料载体发行信息、语料内容信息、语料采集信息、语料库管理信息。 语料库标注的7条一般原则是:原始语料和标记符号的数据独立性原则、语料库的公开性原则、语料标注的通用性原则、语料标注的折衷性原则、语料标注的一致性原则、标注符号的确定性原则、用户知情权原则。 语料库标注过程中应该处理好以下几个关系:详细标注和简单标注的关系、通用性和专用性的关系、原则性和灵活性的关系、绝对性和模糊性的关系。 HNC理论建立了概念语义网络,可以用来描述词汇的语义,描述词汇之间的概念联想脉络。研究HNC概念表达式的形式化定义,旨在为语料库的自动语义标注建立语义知识表示体系,实现语义标注附码的形式化,实现语义的可计算性。 语料库应用工具软件的开发,能大力促进基于语料库的语言学研究,是语料库研究的一个重要内容,应该重视这方面的研究。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:H085

【相似文献】
中国期刊全文数据库 前10条
1 张宏;;从语料库建设角度建议恢复《京华烟云》两处原文[J];名作欣赏;2010年23期
2 刘剑;;国外多模态语料库建设及相关研究述评[J];外语教学;2017年04期
3 宋红波;王雪利;;近十年国内语料库语言学研究综述[J];山东外语教学;2013年03期
4 闫如武;;翻译的语料库研究范式评析[J];西安外国语大学学报;2017年03期
5 叶章勇;;英语语料库建设及应用研究:现状与趋势[J];宁波广播电视大学学报;2014年01期
6 周韵;;国内语料库研究热点及核心作者群分析——基于CSSCI期刊的研究[J];长春理工大学学报(社会科学版);2014年10期
7 张威;;口译语料库研究的原则与方法[J];外语电化教学;2013年01期
8 张亚;郝玉荣;;语料库翻译研究述评[J];黑河学院学报;2012年06期
9 胡显耀;用语料库研究翻译普遍性[J];解放军外国语学院学报;2005年03期
10 谢盛良;;用语料库研究翻译的问题及局限性分析[J];惠州学院学报(社会科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 刘克强;;莫言小说汉英平行语料库的建设[A];外语教育与翻译发展创新研究(第六卷)[C];2017年
2 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
3 邹兵;杨冬敏;;会话分析理论在口译语料库建设中的应用研究[A];第十四届全国科技翻译研讨会论文汇编[C];2011年
4 卢颖超;李雅;陶建华;许小颖;;连续语流中重音标注和大规模重音语料库建设[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
5 靳光瑾;富丽;;中文语料库建设——标准制定和质量检查[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 华沙宝;;蒙古语作者专门语料库建设及新一代词典编纂进展[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 ;汉语共时语料库:持续开发与多维应用[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
8 张姝;杨沐昀;郑德权;赵铁军;;面向奥运的多语语料库构建[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
9 陈志雄;;计算机技术在语料库建设及辞书编纂编辑中的应用[A];2004年辞书与数字化研讨会论文集[C];2004年
10 张普;;关于大规模真实文本语料库的几点理论思考[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
中国重要报纸全文数据库 前10条
1 本报记者 朱颖婕;人类的1%比AI的99%更重要[N];文汇报;2019年
2 西北师范大学国际文化交流学院 武和平 赵焕改;推进东干语语料库建设[N];中国社会科学报;2018年
3 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
4 李强 北京大学中文系/计算语言学教育部重点实验室;以协同合作推进汉语中介语语料库建设[N];中国社会科学报;2014年
5 记者 郝日虹;我国首个质量安全语料库建成[N];中国社会科学报;2014年
6 国家社科基金重大项目“大规模英汉平行语料库的建立与加工”首席专家、北京外国语大学教授 王克非;构建新型的历时复合语料库[N];中国社会科学报;2016年
7 北京外国语大学北京日本学研究中心 段文晶;以学习者为中心建设语料库[N];中国社会科学报;2019年
8 戴光荣 福建工程学院人文学院;从语料库视角看中国文学作品“走出去”[N];中国社会科学报;2018年
9 商报记者 罗添 实习记者 张绪旺;输入法语料库进入“T”时代[N];北京商报;2010年
10 杨希贵 王东;合作开发语料库还仅仅是第一步[N];中国图书商报;2005年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 恩和巴雅尔;蒙古国新闻语料库的构建及相关问题研究[D];内蒙古大学;2016年
3 何清顺;基于语料库的英语独立主格结构之系统功能语言学研究[D];西南大学;2013年
4 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年
5 李二涛;基于博客语料库副词使用的性别差异实证研究[D];华中师范大学;2012年
6 于洋;基于语料库的环境话语中的联合研究[D];山东大学;2013年
7 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
8 周小玲;基于语料库的译者文体研究[D];湖南师范大学;2011年
9 吴金星;蒙古语语料库加工集成平台的构建[D];内蒙古大学;2015年
10 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
中国硕士学位论文全文数据库 前10条
1 方钰洁;运用语料库研究方法和言语行为理论分析昆汀·塔伦迪诺的剧本《被解救的姜戈》[D];上海外国语大学;2019年
2 朱楠;基于语料库研究频率副词在句中的位置[D];大连海事大学;2005年
3 宋文瑞;古代汉语史书语料库建设的初步研究[D];东北大学;2011年
4 白玲玲;中医药古文献语料库建设的语料分类问题研究[D];山东中医药大学;2007年
5 李钊;中国—东盟博览会新闻笔译语料库建设初探[D];广西民族大学;2014年
6 贾冰;唐诗色彩词英译的语料库辅助研究[D];太原理工大学;2012年
7 斯日古楞;《现代蒙古语语料库管理平台》建设[D];内蒙古大学;2010年
8 买吾浪江·艾依提;维吾尔中介语语料库管理系统建设及自动标注技术研究[D];新疆农业大学;2016年
9 李芳艾;面向对外汉语的虚词语料库建设研究[D];湖南师范大学;2014年
10 江璐;基于小型自建语料库的电视同传特征研究[D];北京外国语大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026