收藏本站
《中国社会科学院研究生院》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语新词语辅助识别系统的研制

骆彬  
【摘要】: 文章叙述了“汉语新词语辅助识别系统”的开发过程。该系统的主要任务是结合使用规则方法和统计方法,利用计算机自动从大规模电子文本中提取候选新词语,帮助现代汉语语文词典编纂者发现新词语。同时,本系统也可以用于处理中文信息处理中的未登录词识别问题。 语言学家多从意合的角度解释构词的规律,属于定性的方法,得到的结论难以形式化,在计算机上实现起来比较困难。迄今为止还没有一个关于“词”的完整、准确、令所有人认同的定义,语言学家在判断“词”时常常要依靠“语感”。目前也没有一套切实可行的标准和操作程序让计算机来判断一个字串是否是词。因此,本文力求从定量的角度描述某些构词规则,使它具有可操作性。 统计学方法试图以大量词语的统计特征反映构词的规律。但由于统计方法本身的局限性,无法全面正确地揭示这一规律。而且统计规律受统计资料的影响非常明显,对不同类别的语料统计所得到的结论往往不尽相同,甚至互相冲突。同时统计资料的规模也会影响统计结果。因此单用统计方法也不能很好地解决新词语识别和未登录词的问题。 本系统的一个特点是结合使用了以上两种方法。统计规则方法的可计算性强,易于在计算机上实现。但它也存在着自身不可克服的弱点,例如统计上的小概率事件在实际应用中变成了不可能事件,因为机器在识别时总是会倾向于选择概率较大的结论。这时就需要由语言规则来进行校正。语言规则越完善,可操作性越强,得到的结果也越准确。所以在这次实验中尽可能合理地使用语言规则,让尽量多的构词规律具有可操作性。 本系统开发的另一个特点是利用了大规模的语料进行训练。本系统使用《人民日报》电子版作为实验语料,经程序处理过的语料近七千万字。《人民日报》的特点是发行量大,流通度广,实时性强,使用语言规范。使用大规模语料的目的是为了保证实验的可靠性。在实验过程中,反复对大量语料的处理结果进行分析,不断调整使用各种规则和统计方法的时机,校正处理过程中的失误和偏差,得到了比较满意的实验结果。 另外,本系统在开放式规则识别方面作了一些尝试。在系统中的规则部分,把具体规则放入程序之外的文本文件,程序执行过程中,从不同文件中读取相应的规则进行处理。如果需要对规则进行改动,可以按照规则的格式,对文本文件进行编辑,加入、删除规则,而不需要改动程序本身。
【学位授予单位】:中国社会科学院研究生院
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:H085

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 柳娟;;浅谈现代汉语中的新词语[J];群文天地;2011年14期
2 韩晓云;;现代汉语新词语的产生原因及特点[J];文学教育(下);2011年06期
3 胡媛媛;胡芳芳;;新词语叠用现象折射出的社会心态[J];现代语文(语言研究版);2011年06期
4 郭旭东;;年度新词语所折射出的社会时代气息[J];大家;2011年16期
5 邵晓阳;;关于新词语规范化的思考[J];湖北第二师范学院学报;2011年06期
6 兰雪香;李秀文;伍和忠;;柳城县六塘壮语新词语初探[J];百色学院学报;2011年02期
7 战音平;陈姗姗;金鑫;;汉语常用字构词能力的统计分析[J];语文学刊;2011年09期
8 周蕾;;“给力”新词初探[J];群文天地;2011年12期
9 周明海;;辞书编纂现代化趋势下的新词语词典编纂——评《2007汉语新词语》《2008汉语新词语》[J];辞书研究;2011年04期
10 刘辉;田立冬;;从语用视角谈汉语新词语的英译[J];时代文学(下半月);2011年06期
中国重要会议论文全文数据库 前10条
1 亢世勇;姜仁涛;姜岚;李艳;;《汉语新词语学习词典》的编纂[A];语文现代化论丛(第七辑)[C];2006年
2 李燕;;新词语的研究及其在对外汉语教学中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 李衍妮;;谈新词语中带体词性宾语的动词[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 谢俊英;;新词语发现手段和新词语词典编纂浅谈[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 颜伟;亢世勇;;基于语料库的现代汉语新词语动词语法特征的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
7 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
8 亢世勇;;语料库技术在新词语词典开发中的具体应用[A];中国辞书论集2000[C];2000年
9 于根元;;整理汉语新词语的若干思考[A];语言文字应用研究论文集(Ⅰ)[C];1995年
10 鲍明凌;亢世勇;;基于数据库的现代汉语新词语缩略语的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 本报记者 刘昊;新词语一年诞生396条[N];北京日报;2010年
2 本报记者 任丽梅;我国2009年出现新词语396条[N];中国改革报;2010年
3 吕永海;话说“新词语”[N];语言文字周报;2011年
4 本报评论员刘文宁;新词语涌现折射社会发展轨迹[N];工人日报;2003年
5 记者 刘昊;汉语去年又增254条新词语[N];北京日报;2008年
6 刘毅;中文新词语专家论是非[N];团结报;2000年
7 商务印书馆汉语编辑室主任 周洪波;新词语犹如朝日[N];北京日报;2000年
8 记者 李莉;教育部发布新词语 次贷和谐号等上榜[N];中华新闻报;2008年
9 国家语委副主任、教育部语言文字信息管理司司长 李宇明;发布年度新词语的思考[N];光明日报;2007年
10 孙宇 吴晶;去年流行字:涨跌常见,肉也上榜[N];新华每日电讯;2008年
中国博士学位论文全文数据库 前10条
1 孙荣实;汉语新词语运用研究[D];复旦大学;2004年
2 游玉祥;新词语的特点分析及其认知解释[D];上海外国语大学;2012年
3 刘晓梅;当代汉语新词语研究[D];厦门大学;2003年
4 杨霞;初期现代汉语新词语研究[D];河北大学;2011年
5 周琳娜;清代新词新义位发展演变研究[D];山东大学;2009年
6 祁世明;当代汉语变异的概念整合研究[D];上海外国语大学;2011年
7 闫从发;基于《汉语大词典》语料库的时代汉语词汇研究[D];山东大学;2009年
8 肖模艳;现代汉语比喻造词研究[D];厦门大学;2008年
9 宋琳;基于《汉语大词典》语料库的魏晋新词语研究[D];山东大学;2011年
10 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 骆彬;汉语新词语辅助识别系统的研制[D];中国社会科学院研究生院;2003年
2 高原;[D];山西大学;2004年
3 陈玉兰;2008年汉语新词语研究[D];西南大学;2011年
4 高伟;近十年(2000年-2009年)汉语新词语研究[D];黑龙江大学;2010年
5 周根飞;“刀”、“雷”、“囧”、“槑”:网络翻新词语个案研究[D];安徽大学;2010年
6 谢莉琳;试论对外汉语报刊阅读课中新词语的教学[D];暨南大学;2012年
7 石宁;对外汉语教学中汉语新词语教学探究[D];黑龙江大学;2012年
8 张红;汉语经贸新词语与翻译[D];对外经济贸易大学;2000年
9 佘国秀;二十一世纪以来全球化背景下汉语新词语研究[D];新疆师范大学;2010年
10 吕筱静;2006-2008汉语新词语的研究[D];云南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026