收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

现代汉语语文辞书词性标注研究

樊立三  
【摘要】: 词性标注一直是汉语语文辞书编纂未能很好解决的难题。近年来,随着汉语语法理论研究的深入和词典编纂理论的发展,这个问题得到了普遍的关注,不少词典开始标注词性。 现代汉语词类的划分,或者说语文辞书词性的标注,仅仅依靠内省式的简单枚举法既不能全面地反映词语的语法功能,也不能对词语的词性进行全面、明确的标注。在大规模的语料库基础上,进行词性标注研究成为一种必然。基于大规模语料库之上的汉语语文辞书词性标注,已有的研究成果不是很多。在大规模语料库基础上的语文辞书词性标注研究,不仅能够为现代汉语语法理论的发展、现代汉语词类的划分提供一定的借鉴,而且能够为辞书编纂、对外汉语教学以及中文信息处理的研究实现提供切实的参考价值,具有很强的社会效益。 正是鉴于这样的思考,我们在2004年9月初决定,以和清华大学计算机系合作完成的包含11万词语的《现代汉语电子词典》为基础,并参照北京大学计算语言学研究所开发的《现代汉语语法信息词典》,选取了目前标注词性的现代汉语语文辞书中较有代表性的《现代汉语规范词典》、《应用汉语词典》、《新世纪汉英大词典》和《多功能学生语文词典》等四本词典,录入了四本词典所收字、词、语全部条目,最终建成了一个《现代汉语语文词典词性标注数据库》。本文正是在语料库的基础上,以现代汉语的词类研究成果为指导思想,着重分析了当前现代汉语语文辞书词性标注中存在的问题:不同的辞书对某些字、词、语的词性标注存在很大分歧。通过对数据库中的词性标注有差异的词语进行详细考察,我们把产生这些差异的原因初步归为五个方面:词类的不同以及词典体例的不一致;语法功能多样性或判定标准不同导致词性标注不同;辞书所采用的词类层级系统不同;义项的释义角度不同导致词性标注不同;义项确定不一。并且在每个原因中又针对具体的现象进行了概括性的分析。由于单字是语素还是词的标准不易操作,因此我们并没有对每个单字逐一进行详细考察,只是指出了涉及语素的词条约有4284个,占总数的15%。同时利用从人民网语料库中随机抽取的语料,我们又对24053个词条(包括词、短语)进行了考察,重点分析了成语、熟语、惯用语以及固定词组的划界,动词,形容词,名词,副词,区别词,状态词,量词,叹词和拟声词,并试着确定了词性标注的可操作特征,或者是进行了定量的统计,尽可能地为语文辞书的词性标注提供一个参考。基于上述分析,我们总结概括出了词典标注词性应当遵循的几项基本原则:第一,语言单位的划定要明确,既要注意词与语素的划界,也要注意短语


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李琼;李志;;基于词性信息自动识别和标注非分句[J];长春工程学院学报(社会科学版);2011年01期
2 段慧明,松井久仁於,徐国伟,胡国昕,俞士汶;大规模汉语标注语料库的制作与使用[J];语言文字应用;2000年02期
3 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
4 董宇;;带标注语料库的分词不一致研究综述[J];现代语文(语言研究版);2008年08期
5 李志江;关于语文辞书词性标注的探讨[J];语文建设;1999年05期
6 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
7 白玉林;《十三经辞典》词性标注问题[J];辞书研究;2000年06期
8 李海波;;手工分词和词性标注的问题[J];现代语文(语言研究版);2010年07期
9 程荣;;汉语辞书中词性标注引发的相关问题[J];中国语文;1999年03期
10 张立茂;陆福庆;;词性标注与释文结构[J];辞书研究;1983年05期
11 方芳;;基于语料库的量名短语识别初探[J];乐山师范学院学报;2006年02期
12 李安兴;;试用“范畴化的典型理论”探讨进一步改进汉英词典中词目标注词性的问题[J];辞书研究;2006年04期
13 郑献芹;;《现代汉语词典》(第5版)标注词性的几个相关问题[J];语文学刊;2010年13期
14 袁煜;;正则表达式在外语教学及研究中的应用[J];软件导刊;2011年01期
15 郭锐;;语文词典的词性标注问题[J];中国语文;1999年02期
16 丁炳福;试论汉英词典的词性标注[J];辞书研究;2002年06期
17 万红雅;刘丙丽;牛雅娴;董艺;;词性标注规范化探索——论兼类词、区别词和状态词的标注规范化[J];现代语文(语言研究版);2009年11期
18 杨翠兰;汉语成语的语法功能研究[J];烟台教育学院学报;2005年03期
19 王伟丽;;浅谈外向型汉语学习词典的词性标注[J];语文学刊;2009年08期
20 牛雅娴;刘丙丽;万红雅;董艺;;从句法分析看词性标注[J];现代语文(语言研究版);2009年12期
中国重要会议论文全文数据库 前10条
1 樊立三;亢世勇;王兴隆;马永腾;;语文词典标注词性的基本原则[A];第三届学生计算语言学研讨会论文集[C];2006年
2 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 安娜;;基于语料库的英汉熟语标注研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
5 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
6 王东波;陈锋;;现代汉语“名+名+名”组合的统计分析[A];第三届学生计算语言学研讨会论文集[C];2006年
7 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李玉梅;陈晓;姜自霞;靳光瑾;易江燕;黄昌宁;;分词规范亟需补充的三方面内容[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
10 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
8 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
9 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
10 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 赵玉荣;《青史演义电子词典》形容词分库构建[D];内蒙古大学;2009年
4 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
5 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
6 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
7 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
8 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
9 哈斯图雅;《青史演义电子词典》普通名词部分的构建[D];内蒙古大学;2008年
10 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
5 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
6 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
7 师欣;“规范”之争[N];南方周末;2004年
8 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
9 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
10 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978