收藏本站
《北京语言文化大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究

王强军  
【摘要】: 本文以动态语言知识更新理论为指导,以信息技术领域为实验对象,对基于大规模动态流通语料库的术语提取技术进行研究,提出了利用接续指数判断字符串词语度的方法,实现了“接续指数+TFIDF+领域相减”进行术语提取的技术路线和工作流程,初步形成了一个基于动态流通语料库的信息技术领域新术语提取系统。 本文介绍了动态语言知识更新理论体系和基于动态流通语料库的研究框架,提出了动态流通语料库建设的扩展方案,使之在扩展研究范围和研究深度的同时保持与现有系统的全面兼容,并具有较好的可扩缩性。 新术语首先是术语,它具有术语的三个基本特征:一般只在一个或几个特定的领域出现;是本领域的高流通度词语:在其他领域的流通度接近于0。基于此,本文的基本思路是通过研究已有术语在语料库中的分布情况,确定新术语在语料库中的可能分布情况,通过分析各种阈值条件下已有术语的提取结果,确定提取新术语的最佳阈值条件。 新术语往往是未登录词语,所有未登录词语识别的困难在新术语提取中同样存在,经过传统的自动分词方法处理的语料对新术语的提取跟对未登录词语识别一样存在困难,因此,为了尽可能多的保留新术语,本文采用了全切分方法对语料进行前期处理。 一个字符串在特定的上下文中成为术语的两个指标是词语度(unithood)和术语度(termhood)。本文提出接续指数的概念用于衡量一个字符串的词语度。实验表明接续指数对于判断一个字符串是不是一个完整的词语具有比较明显的效果。 在提取方法上本文提出了“接续指数+TFIDF+领域相减”的方法。利用接续指数判断字符串的词语度,利用“TFIDF+领域相减”的方法判断字符串的术语度。该方法在动态流通语料库(DCC)的部分语料(目标语料1700万字,对照语料6亿字)上进行实验,结果表明,在基于大规模语料库的术语自动提取中,本论文所采用的语料处理方法和术语提取技术对新术语的发现有较为显著的效果,在较少人工干预的基础上,提取出较多新术语,部分地实现了传统分词方法难以完成的任务。 另外,本文讨论了术语提取的两种工作模式:“文件+索引+统计结果”模式和“文件+数据库”模式,分析了两者的优缺点,指出后者是动态语言知识更新在语言监控方面较好的应用。 综上所述,本文的创新之处有如下几个方面: 1.提出了接续指数的概念。 2.把接续指数用于衡量一个字符串的词语度。 3.在术语提取方法上,提出了“接续指数+TFIDF+领域相减”的方法。 本研究所形成的初步的术语提取系统可为专业领域术语提取、动态流通语料库建设提供原型和参考。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵勇;;也说新潮术语——兼与王珂先生商榷[J];艺术广角;2003年04期
2 周方和;从clone的译名谈科技新术语的翻译[J];外语与外语教学;1998年09期
3 空草;“文学批评新术语”丛书[J];外国文学评论;2003年01期
4 吴启金;汽车制造业的几个新术语及其汉译[J];中国科技翻译;1998年02期
5 隋岩;动态流通语料库理论的概念和方法[J];语言文字应用;2000年02期
6 毛华奋;外来语的吸收与新术语的翻译[J];台州学院学报;1999年05期
7 丛德昌;;社会政治术语中源于英语的仿造术语[J];外语研究;1989年02期
8 周志雄;移植与综合:关于新时期以来文学批评的新术语[J];山东社会科学;2003年06期
9 李克佳;;浅谈科技英语中的音译与形译[J];英语知识;1996年02期
10 赵宁,李天行;谈新术语的翻译[J];成都大学学报(社会科学版);2001年03期
11 邢红兵;基于第三代语料库的信息领域术语动态更新[J];语言文字应用;2000年02期
12 张承志;你选择什么[J];当代作家评论;1995年01期
13 周开鑫;试评《溯往/即事指称和回应省略》[J];四川外语学院学报;1992年01期
14 徐刚;方忠;;凝聚态物理中的新术语[J];中国科技翻译;2009年02期
15 冯浩菲;“反训”的提法欠妥[J];辞书研究;1993年01期
16 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
17 朱乐红;利用语料库研究不确定频度词[J];天津外国语学院学报;2002年03期
18 李颖;使用语料库索引学习英语近义词探讨[J];黄河水利职业技术学院学报;2003年02期
19 李明;语料库·蓝本·双语词典[J];苏州大学学报(哲学社会科学版);2003年03期
20 黄橙紫;科技英语词汇的统计特征[J];同济大学学报(社会科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 聂长顺;近代汉字术语误植问题初探[N];光明日报;2006年
5 仲呈祥;匡正对文化术语的误读[N];人民日报;2009年
6 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
7 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
8 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
9 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
10 Gerald Ashley 博士 编译 杨明;黄金市场中的行为与决策[N];中国黄金报;2007年
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
5 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
6 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
7 何婷婷;语料库研究[D];华中师范大学;2003年
8 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
9 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
10 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 谢晓燕;基于眼动技术和动态流通语料库(DCC)的汉语阅读注视块研究[D];北京语言大学;2005年
2 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
3 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
9 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
10 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978