收藏本站
《北京语言大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于“动态流通语料库”的“有效字符串”提取研究

隋岩  
【摘要】:本文提出了一个新的语言处理单位“有效字符串(Valid String,VSt)”并以“动态流通语料库(DCC)”为依托,以“流通度”理论为支点,对“有效字符串(VSt)”的提取进行了初步的研究。 本文定义的“有效字符串(VSt)”是一种语言理解单位,而不是单纯的语法单位。从语用的角度看,语法研究中的各级单位(例如词、词组/短语、组块等)在一定语用条件下都可以单独完成语言理解和交际任务,本质上也是“有效字符串(VSt)”的一种形式。而关于这些传统语法单位人们已经作了深入细致的研究,并且取得了丰硕的成果,因此,本文更专注于比这些传统语法单位空间跨度更大的“有效字符串(VSt)”的提取研究。 从形式上看,本文所要提取的“有效字符串(VSt)”也是由上述传统语法单位构成的,它涵盖了从词一直到语块的全部可能的“表达/理解”单位。所不同的是,这些字符串跟语用的要求更加接近,它们不是静态的、备用的语法单位,而是动态的、备用的语用单位,通过对“有效字符串(VSt)”在大规模真实文本中使用情况监控,就可以间接实现对语言使用情况的监控,也就是“语用监控”,进而达到“语言知识动态更新”的终极目标。 为了实现这一目标,本研究建造了以“句碎片”库为核心的“动态流通语料库(DCC)”,并把“流通度”理论作为整个研究的指导,从“有效字符串(VSt)”的提取入手,试图从一个全新的角度对大规模真实文本的加工处理进行一次探索。 在这个过程中,本文考察了已有的相关研究成果并从中汲取丰富的营养。参考了认知心理学、大众传播学等的相关理论,对“有效字符串(VSt)”进行了严格的定义,对字符串“频度、使用度、流通度”曲线走势模式进行了初步的分析和归纳,为“有效字符串(VSt)”的自动提取做好了准备。 在语料具体处理过程中,本文引进了“全捆绑”的策略,从经过分词处理的“句碎片”库中“捆绑”出“备选字符串”,把它们与字符串曲线走势模式进行匹配,从而提取出“有效字符串(VSt)”。 本研究建造的“动态流通语料库(DCC)”包含2003年10种报纸1-6月的全部语料,8,687,925条记录,平均“句碎片”长度为16字,总语料规模为8,687,925~*16=139,006,800字。全部语料都按照时间序列存储。 为了处理语料和提取“有效字符串(VSt)”,我们开发了“DCC’处理软系统件”。包括“句碎片’切分、分词”模块、“X串’剥离”模块、“备选字符串’捆绑”模块、“有效字符串(VSt)’提取”模块和“有效字符串(VSt)’后处理”模块。 以这个规模的语料库为中心,本研究作了157,661条“有效字符串(VSt)”提取实验,正确率为80.21%。 本文主要有以下四方面创新: 1、从认知的角度定义了语言的理解和交际单位“有效字符串(VSt)”。 2、分析并确定“有效字符串(VSt)”的曲线走势图模式(三种)。 3、提出了基于“曲线走势图”的“流通度”评估方法并提取“有效字符串(VSt)”。 4、建造基于“句碎片”库的“动态流通语料库(DCC)”。
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:H08

【相似文献】
中国重要会议论文全文数据库 前1条
1 亢世勇;姜仁涛;姜岚;李艳;;《汉语新词语学习词典》的编纂[A];语文现代化论丛(第七辑)[C];2006年
中国重要报纸全文数据库 前10条
1 乐天编译;动态语言静待花开[N];计算机世界;2007年
2 Zend公司CTO Andi Gutmans;JVM救不了Java[N];中国计算机报;2008年
3 高洋(作者单位:安徽省歌舞剧院);浅析当代舞蹈创作走向[N];安徽经济报;2006年
4 清水 编译;Ruby面向Java世界[N];计算机世界;2006年
5 邢小萍;金蝶OperaMasks 2.0 拼抢SaaS市场[N];网络世界;2008年
6 胖胖;VBA会成为一种没落的技术吗?[N];中华读书报;2007年
7 ;微软对开源的爱与恨[N];网络世界;2007年
8 本报记者 王臻青;辽宁芭蕾感动首都观众[N];辽宁日报;2008年
9 孟冬冬;Java走上开源之路[N];计算机世界;2007年
10 ;JRuby:集Java和RoR之所长[N];计算机世界;2007年
中国博士学位论文全文数据库 前5条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
3 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
4 张幂;基于动态语言的系统描述、验证和综合[D];复旦大学;2009年
5 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 杜欢;高度可扩展的递归可枚举语言解析器的研究[D];华中科技大学;2007年
2 史中琦;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[D];北京语言大学;2005年
3 李伟;基于JAVA的学生信息管理系统[D];电子科技大学;2009年
4 孙思亮;XX银行中间业务平台的设计与实现[D];山东大学;2009年
5 王蕾;基于动态流通语料库的信息技术领域术语通用化研究[D];北京语言文化大学;2003年
6 丁兆云;互联网多维层次式舆情指数若干计算方法的研究与实现[D];国防科学技术大学;2008年
7 庄家栋;基于WSGI的可复用统计审核平台的研究与实现[D];中南大学;2009年
8 吕荣兰;基于语料库的对外汉语口语话题及话题词表构建[D];暨南大学;2011年
9 邓际锋;支持静态元编程的可扩展式开放编译器的研究与实现[D];华东师范大学;2006年
10 秦鹏;平面媒体语言资源监测软件包开发及应用[D];北京语言大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026