收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析

史中琦  
【摘要】:词表,对于语言学理论、语言教学、中文信息处理等领域都具有极其重要的价值和意义。词表研究,也因此成为众多学者历来关注的重要课题之一。本文针对从2002年10种主流报纸中提取的两个词表——流通度词表和使用度词表进行了多角度的比较分析,最后得出结论:以流通度为标准提取的词表由于加入了发行量和媒体等系数,在内容和顺序上更能反映报纸的动态变化,更加科学实用。 本文主要对两个词表前3000的词语进行了比较,如果把使用度词表作为初表,对比后我们发现流通度对使用度词表进行了较大幅度的调整,使用度表前3000中有65.63%的词语到了流通度表中仍然保持在前3000的行列,34.37%的词语到了流通度表中则跌出了前3000,同时有1031个本来在使用度表中位列3000以后的词语进入了流通度表前3000。在新进入的词语中,具有显著领域特色的词语大量涌入,涵盖经济、政治、休闲娱乐等多个方面;从词性角度看,标识类名词数量众多,代词和形容词数目偏少。在跌出去的词语中,形容词数量较多。在保留下来的词语中,有三类词语特点明显:网页信息类、报纸栏目名称类和报纸属性信息类;从词性角度看,代词和几种虚词更为引人注意。在对词表观察分析时我们发现,报纸发行量、发行地域等“媒体系数”在调整词表的过程中发挥了重要作用,这体现了流通度的重要思想——媒体流通度会直接影响到文本的流通度,文本的真实流通才会对大众语感产生影响。除了分析词表的变化,我们还对“语结构”进行了专门的研究并得出结论:流通度词表中的语结构更好地兼顾到了统计和语感两个方面的因素,因此更有实用价值。为了验证文章结论是否正确,我们还进行了一定范围的语感验证,验证结果与我们之前得到的结论非常吻合,这也是对流通度理论的有力佐证。 本文的语料来自北京语言大学DCC动态流通语料库。采用语料库技术,同时参考大众语感。希望通过本文可以体现流通度理论在科学性和实用性上的优势,同时,也希望我们的结果能够为对外汉语教学提供一些借鉴和参考。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 万安迪;陈乾峰;;基于语料库的高校英语专业学生情感的量化分析[J];内蒙古农业大学学报(社会科学版);2011年03期
2 郑张尚芳;;五十身体词的藏汉对应[J];民族语文;2011年04期
3 杨行;;语料库工具与英语词汇教学之light Vs.heavy[J];科技信息;2011年16期
4 林黉;;基于语料库对《大学体验英语》综合教程词汇的分析[J];华北水利水电学院学报(社科版);2011年03期
5 黄伶燕;罗建平;;基于语料库的CET4阅读理解的相关性分析[J];韶关学院学报;2011年07期
6 李喜成;;“新闻英语”词汇量的语料库考察与统计学分析——以《北京周报》(2007)为例[J];辽宁科技学院学报;2011年02期
7 张平;;同素同义单双音节动词的词义对应计算与分析[J];语言文字应用;2011年03期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 史中琦;张普;;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 郑泽之;王强军;张普;;流通度—字词使用情况测定的新方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 郗昕;李剑挥;蒋政;冀飞;陈艾婷;赵乌兰;;汉语扬扬格词表的编辑与等价性研究[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
6 李丽;王宁宇;葛晓辉;陈莉;孟伊;李金兰;;正常人背景噪声下言语测听词表的等价性分析[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
7 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张华;邵广宇;陈静;王硕;张朝慧;李玉玲;韩德民;;普通话单音节完整词表与小词表的比较研究[A];第九届中国语音学学术会议论文集[C];2010年
9 张国亮;郑方;吴文虎;;基于两层词法树的大词表连续语音识别搜索算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 王强军;李芸;张普;;信息技术领域术语提取的初步研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 崔勇;儿童言语测听词表的设计和人工耳蜗植入对语前聋儿童言语识别的影响[D];复旦大学;2004年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
4 甘瑞瑗;国别化“对外汉语教学用词表”制定的研究:以韩国为例[D];北京语言大学;2005年
5 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
6 毛伟宾;汉语错误记忆通道效应的研究[D];华东师范大学;2009年
7 解恒革;老年男性认知功能衰退与血清睾酮和雌二醇的关系[D];中国人民解放军军医进修学院;2004年
8 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
9 吴晓真;英语为源语言词典编纂中的用户友善问题[D];复旦大学;2004年
10 周楚;错误记忆的理论和实验[D];华东师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 史中琦;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[D];北京语言大学;2005年
2 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
3 刘颖;大学英语四级词汇在轮机英语的语篇覆盖率[D];大连海事大学;2006年
4 曾铄然;大学英语词汇对普通英语的词汇覆盖率[D];大连海事大学;2008年
5 王京;基于医学研究论文语料库的医学学术词表的构建[D];第四军医大学;2006年
6 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
7 李蓓;言语清晰度测试词表与汉语测试词表在听力正常人中言语识别阈的测试比较[D];四川大学;2005年
8 董振燕;服装英语词汇与大学英语四级词汇的对比分析[D];大连海事大学;2007年
9 唐萍;建湖方言词汇研究[D];南京师范大学;2004年
10 欧阳晓芳;《汉语水平词汇与汉字等级大纲》动词体系研究[D];华中科技大学;2005年
中国重要报纸全文数据库 前10条
1 秦秋;中医药主题词表国家标准出台[N];中国医药报;2005年
2 记者 隋笑飞;词表收常用词5万余个[N];新华每日电讯;2008年
3 记者 李宝华;七二四所三十华诞[N];中国船舶报;2000年
4 李岩 作者单位系北京市第三十三中学;“写”在教学中[N];中国教师报;2003年
5 张杰 马广惠 辛斌 吕俊;跨入新世纪门槛的西方文学与语言学[N];文艺报;2004年
6 记者 王晶、通讯员 沈考;高考大纲补充说明发布[N];湖北日报;2006年
7 健康时报记者 熊江雪;大人应少说小孩儿话[N];健康时报;2006年
8 本报记者 王敏 实习生 唐穗英;“老熟人”盛赞深圳发展[N];深圳特区报;2006年
9 董永前;关注城市的细节[N];兰州日报;2006年
10 ;周汝昌谈尽心的诗词(三则)[N];人民日报海外版;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978