收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态流通语料库(DCC)的流行语释义信息自动提取研究

谢学敏  
【摘要】:流行语是“在某一时期,某一地域或者某一人群中迅速传播、盛行的词汇”,而流行语释义就是对流行语的含义进行注释或解释。本文主要研究在大规模真实文本中提取流行语的释义信息的方法,并尝试对提取出来的相关释义信息按一定的重要度进行排序。 我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择了2004年全年和2005年全年的15种主流报纸的网络版文本,共841,547,069字(即约8亿4千万字),其中2004年语料总量为415,756,703字,2005年语料总量为425,790,366字。在此基础上,我们经人工标注,建立了流行语释义信息提取的训练语料库,并分别对2004年及2005年的流行语释义信息进行自动提取的封闭测试和开放测试。 本文的研究特色主要体现在以下几个方面: 一、首次对流行语释义信息进行了考察 1、界定了“流行语释义信息”的概念。流行语释义信息指的是一些与流行语释义相关的但没有经过提炼与整合的信息。 2、厘清了“流行语释义信息”的类别。从形式的角度考虑,主要把流行语释义信息分为两类: 一类为带标记的流行语释义信息。 这里所谓的标记,专指“是”、“即”、“就是”、“称为”、“叫做”、“包括/包含”、“所谓……是指……”、“由……构成/组成”等常用于一般词语释义中的特定的词或固定结构,带有这些标记的流行语释义信息就称之为带标记的流行语释义信息。 另一类为不带标记的流行语释义信息。 这类释义信息不带有上述的标志词,但是可以发现另外一些专门的词语,例如:时间、地点、事件等命名实体,这些词语在提取时可以作为特征项,但其提取效果是无法跟上述标记相比的。这类释义信息主要可以分为人物简历类释义信息和事件类释义信息。 二、实现了对流行语释义信息的自动提取 我们选择2004年15种主流报纸全年的语料(共415,756,703字)作为我们的训练语料,含流行语的句子数为62,335条,经过人工标记、校对,共得到流行语释义信息1750条。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 本刊记者;;2003自然语言处理与知识工程国际会议将在中国北京举行[J];语言科学;2003年03期
2 秦玮远;;自然语言中副语言的逻辑处理[J];现代语文(语言研究版);2007年07期
3 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
4 陈肇雄,王英姿;我国智能型机器翻译研究获重要成果[J];中国科学基金;1997年03期
5 常宝宝;;自然语言分析与生成术语简介[J];术语标准化与信息技术;2010年04期
6 张禄彭;;面向自然语言处理的歧义概念[J];解放军外国语学院学报;2007年05期
7 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
8 李海艳;;语义距离的计算与感知[J];法国研究;2010年03期
9 徐臻;;试论语言工程的开发[J];黑龙江高教研究;1984年02期
10 吕西安·马尔柰夫,保尔·若利昂;简论自然语言处理的连接网络法[J];中文信息学报;1997年02期
11 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
12 赵铁军;朱聪慧;;世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J];计算机教育;2007年11期
13 黄昌宁,周明;亚太地区自然语言处理的学术盛会——记在韩国汉城召开的NLPRS’95[J];当代语言学;1996年02期
14 魏长宏;张春柏;;机器翻译的译后编辑[J];中国科技翻译;2007年03期
15 李可胜;;语言学中的形式语义学[J];中国社会科学院研究生院学报;2009年02期
16 宗成庆;曹右琦;俞士汶;;中文信息处理60年[J];语言文字应用;2009年04期
17 柏晓静;俞士汶;朱学锋;;自然语言处理中的技术评测及关于英语专业考试的思考[J];外语电化教学;2010年01期
18 祝清松;;我国自然语言处理研究的文献计量分析[J];情报杂志;2009年S2期
19 F·Z·;自然语言处理学术讨论会在京举行[J];语文建设;1989年04期
20 傅兴尚;俄语词汇知识库在NLP中的运作机制[J];外语学刊;2002年03期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
7 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 唐长宁;基于现代汉语动态流通语料库的通用词汇自动提取方法研究[D];内蒙古师范大学;2008年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
4 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
9 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
10 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978