收藏本站
《北京语言大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态流通语料库(DCC)的汉语字母词语识别及考察研究

郑泽芝  
【摘要】:字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨行;;语料库工具与英语词汇教学之light Vs.heavy[J];科技信息;2011年16期
2 谷婧;;语料库在中学英语词汇教学中的应用[J];新教育;2011年08期
3 许淑玲;;语料库在高职英语词汇教学中的运用[J];西南农业大学学报(社会科学版);2011年05期
4 梁健丽;;“英语作为通用语”语料库介评(英文)[J];语文学刊(外语教育与教学);2011年08期
5 刘艺;;英语职业教育中语料库作用探讨[J];黑龙江科技信息;2011年21期
6 吴军莉;;二语习得与语料库英语教学[J];佳木斯教育学院学报;2011年04期
7 李安玲;张晓雁;;探究语料库在英语写作教学中的应用[J];校园英语(教研版);2011年06期
8 董娜;;语料库与翻译教学[J];语文学刊;2011年09期
9 米歇尔·保尔;海伦·夏普维拉;迪莱塔·迪·洛克;斯戴芬妮亚·格拉斯亚尼;徐洁;;CoDiSV:奥斯塔山谷地区学校儿童书面作业的数字语料库[J];中国儿童文化;2010年00期
10 张敏;李学宁;;西方主要英语语料库结构代表性分析[J];赤峰学院学报(汉文哲学社会科学版);2011年06期
11 范然;叶兴敏;张慧艳;;基于语料库的现代大学英语课程词汇改革初探[J];成功(教育);2011年08期
12 雒作龙;;西北少数民族英语学习者语料库建设研究[J];淮海工学院学报(社会科学版);2011年15期
13 梁红梅;何安平;;让语料库走进日常教学——第九届教学与语料库国际研讨会综述[J];英语教师;2011年09期
14 孙峻;;通过语料库并列共现索引技术进行介词搭配的教与学[J];教育教学论坛;2011年16期
15 范然;姚旭;;基于语料库的英语新闻中人称代词的研究[J];石家庄学院学报;2011年04期
16 陈园园;;基于语料库的学术论文文献综述动词研究[J];教育教学论坛;2011年28期
17 靳丹宁;;基于语料库调查中动词句型错误探析[J];安徽电子信息职业技术学院学报;2011年04期
18 王海静;;俗语语料库与语典编纂相关问题的思考[J];辞书研究;2011年04期
19 王树槐;;论汉英翻译教材的编写原则[J];外语教学理论与实践;2011年02期
20 张燕;沈燕;;语料库在英美文学教学中的应用研究[J];齐鲁师范学院学报;2011年04期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
3 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
4 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
5 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
6 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
7 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
8 何婷婷;语料库研究[D];华中师范大学;2003年
9 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
10 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
中国硕士学位论文全文数据库 前10条
1 谢晓燕;基于眼动技术和动态流通语料库(DCC)的汉语阅读注视块研究[D];北京语言大学;2005年
2 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
3 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
4 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
5 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
6 李春青;[D];电子科技大学;2004年
7 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
8 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
9 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
10 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978