收藏本站
《北京语言大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态流通语料库(DCC)的流行语释义信息自动提取研究

谢学敏  
【摘要】:流行语是“在某一时期,某一地域或者某一人群中迅速传播、盛行的词汇”,而流行语释义就是对流行语的含义进行注释或解释。本文主要研究在大规模真实文本中提取流行语的释义信息的方法,并尝试对提取出来的相关释义信息按一定的重要度进行排序。 我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择了2004年全年和2005年全年的15种主流报纸的网络版文本,共841,547,069字(即约8亿4千万字),其中2004年语料总量为415,756,703字,2005年语料总量为425,790,366字。在此基础上,我们经人工标注,建立了流行语释义信息提取的训练语料库,并分别对2004年及2005年的流行语释义信息进行自动提取的封闭测试和开放测试。 本文的研究特色主要体现在以下几个方面: 一、首次对流行语释义信息进行了考察 1、界定了“流行语释义信息”的概念。流行语释义信息指的是一些与流行语释义相关的但没有经过提炼与整合的信息。 2、厘清了“流行语释义信息”的类别。从形式的角度考虑,主要把流行语释义信息分为两类: 一类为带标记的流行语释义信息。 这里所谓的标记,专指“是”、“即”、“就是”、“称为”、“叫做”、“包括/包含”、“所谓……是指……”、“由……构成/组成”等常用于一般词语释义中的特定的词或固定结构,带有这些标记的流行语释义信息就称之为带标记的流行语释义信息。 另一类为不带标记的流行语释义信息。 这类释义信息不带有上述的标志词,但是可以发现另外一些专门的词语,例如:时间、地点、事件等命名实体,这些词语在提取时可以作为特征项,但其提取效果是无法跟上述标记相比的。这类释义信息主要可以分为人物简历类释义信息和事件类释义信息。 二、实现了对流行语释义信息的自动提取 我们选择2004年15种主流报纸全年的语料(共415,756,703字)作为我们的训练语料,含流行语的句子数为62,335条,经过人工标记、校对,共得到流行语释义信息1750条。
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:H03

【引证文献】
中国期刊全文数据库 前1条
1 李明洁;;流行语的概念梳理与符号学的新观察[J];符号与传媒;2012年01期
中国重要会议论文全文数据库 前1条
1 王强军;张莉;张普;;面向术语提取和定义识别的评测语料库建设[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前1条
1 赵小兰;网络释义文本的语言模式研究[D];河北大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 刘叔新;词语的意义和释义[J];辞书研究;1980年04期
2 李建国;新词新语研究与辞书编纂[J];辞书研究;1996年03期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 刘贵龙,宋柔,王慧玲;模糊聚类分析在文本分类中的应用[J];计算机工程与应用;2003年09期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
8 孔祥勇,张冬茉;一种信息抽取系统中汉语同指消解算法[J];计算机工程;2003年16期
9 刘贵龙;模糊近似空间上的粗糙模糊集的公理系统[J];计算机学报;2004年09期
10 孙乐,金友兵,杜林,孙玉芳;平行语料库中双语术语词典的自动抽取[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前1条
1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前5条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
3 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前3条
1 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 谭文旗;换一个角度打量语文——言语教学探讨[J];阿坝师范高等专科学校学报;2003年03期
2 张小燕;普通话上声变调与轻声分析[J];阿坝师范高等专科学校学报;2004年02期
3 张强,李启月,邓建;用模糊数学综合评判爆破效果[J];四川有色金属;1997年02期
4 张晓杰,王巍巍;基于C—均值模糊聚类的工程结构构件自动归并方法研究[J];四川建筑科学研究;2005年04期
5 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
6 刘桂宏;谭大璐;张婷婷;;模糊综合决策结合德尔菲法判定房屋成新率[J];四川建筑科学研究;2008年04期
7 杨太华;郑庆华;;越江隧道工程大型泥水盾构进出洞施工风险的模糊综合评价[J];四川建筑科学研究;2011年04期
8 祁庆倩;;现代汉语心理动词的内部时间结构[J];安徽大学学报(哲学社会科学版);2011年03期
9 杨晓黎;;传承语素:汉语语素分析的新视角[J];安徽大学学报(哲学社会科学版);2012年02期
10 周有斌;“不是A,就是B”句表述对象的数量及作用[J];安徽教育学院学报;2002年01期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 刘世敏;霍俊秀;卞真林;遇宏;;某型地地战役战术导弹机动发射装置快速抢修系统的设计与实现[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
7 刘晓东;朱翊;柳棽;;基于突发事件的空间信息定位匹配方法研究[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
8 张思洁;;形合与意合的哲学思辨[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
10 罗思明;;词典使用技能教学的认知研究[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 曲丽玮;元刊杂剧复字词汇研究[D];南开大学;2010年
3 王春秀;现代俄语同义词研究[D];上海外国语大学;2010年
4 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
5 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
6 于辉;汉语借词音系学[D];南开大学;2010年
7 王用源;汉语和藏语复音词构词比较研究[D];南开大学;2010年
8 李凤杰;汉英对比韵律系学中的若干问题[D];南开大学;2010年
9 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
10 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
6 张云美;《现代汉语词典》属性词收词与释义研究[D];辽宁师范大学;2010年
7 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
8 乔小琴;基于灰理论的土石坝安全监控综合评价模型研究[D];郑州大学;2010年
9 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
10 石娜;从形合意合角度比较《傲慢与偏见》两译本[D];上海外国语大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 M.A.K.韩礼德;姜望琪;付毓玲;;篇章、语篇、信息——系统功能语言学视角[J];北京大学学报(哲学社会科学版);2011年01期
2 冯志伟;;语义互联网与辞书编纂[J];暨南大学华文学院学报;2009年04期
3 郑泽之,张普;一个基于ASP的流行语投票系统[J];计算机工程;2003年17期
4 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
5 许勇,荀恩东,贾爱平,宋柔;基于互连网的术语定义获取系统[J];中文信息学报;2004年04期
6 李葆嘉;汉语元语言系统研究的理论建构及应用价值[J];南京师大学报(社会科学版);2002年04期
7 张榕;宋柔;;术语定义提取研究[J];术语标准化与信息技术;2006年01期
8 康光明;语篇语言学及语篇例析[J];外语与外语教学;2002年07期
9 缪俊;;“山寨”流行中语义泛化与社会文化的共变[J];修辞学习;2009年01期
10 辛仪烨;;流行语的扩散:从泛化到框填——评本刊2009年的流行语研究,兼论一个流行语研究框架的建构[J];当代修辞学;2010年02期
中国重要会议论文全文数据库 前1条
1 许勇;宋柔;;基于百科词典的知识获取系统的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前1条
1 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
【二级引证文献】
中国期刊全文数据库 前2条
1 李文洁;;“X奴”式流行语的语言机制及其语义分析[J];中北大学学报(社会科学版);2013年03期
2 范会兵;;对“X style”式流行语的认知语言机制解读[J];时代文学(下半月);2014年05期
中国硕士学位论文全文数据库 前1条
1 李清;中文文—语转换系统中多音字问题研究[D];河北大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
3 顾阳;论元结构理论介绍[J];国外语言学;1994年01期
4 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
6 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
7 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
8 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
9 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
10 林茂灿 ,颜景助 ,孙国华;北京话两字组正常重音的初步实验[J];方言;1984年01期
中国重要会议论文全文数据库 前10条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 马红妹;王挺;陈火旺;;汉英机器翻译中语境知识的表示与应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 陈肇雄;黄河燕;;多语机器翻译及其系列应用系统研究进展[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 陆汝占;高峰;陈玉泉;靳光瑾;;汉语内涵逻辑及其应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 陈群秀;李坚;王健;;信息处理用现代汉语语义分类词典的设计与实现[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
中国硕士学位论文全文数据库 前3条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
【相似文献】
中国期刊全文数据库 前2条
1 陈蕙;;电视连续剧《醒悟》拍摄技术纪实[J];电视字幕(特技与动画);2009年04期
2 张飞碧;;数字声源及其编码格式[J];演艺设备与科技;2006年03期
中国重要会议论文全文数据库 前10条
1 刘阳;;秦山三期的电站总体控制[A];全国第四届核反应堆用核仪器学术会议论文集[C];2005年
2 郭光磊;;CANDU6电站控制计算机可靠性分析[A];核工业集团公司第八届可靠性成果发表会论文集[C];2006年
3 韩敏;;浅析传输网管网元脱管[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
4 秦树桐;余利红;周仁平;张成岗;;神经突起导向因子Netrin-4受体的研究[A];中国神经科学学会第六届学术会议暨学会成立十周年庆祝大会论文摘要汇编[C];2005年
5 宋强;袁亮;;全程网管在专网中的设计与实现[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
6 黄文晶;邱永光;陈国兴;;ECC风暴产生原理及案例分析[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 樊建席;杨季文;;DCC线性同余图在PMC诊断模型下的可诊断性评价[A];苏州市自然科学优秀学术论文汇编(2008-2009)[C];2010年
8 曹广喜;徐桂芬;;天气变化对中国证券市场波动影响的实证研究[A];“中国视角的风险分析和危机反应”——中国灾害防御协会风险分析专业委员会第四届年会论文集[C];2010年
9 张跃明;郭庆;;基于传输网网管系统合并的方法研究[A];第七届中国通信学会学术年会论文集[C];2010年
10 ;Asymmetric Synthesis of Antidiabetic Drugs(R)-Nateglinide[A];中国化学会第三届全国分子手性学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 程鸿;DCC:电子商务的第一站[N];计算机世界;2001年
2 特约作者 齐治平;MD随身听风雨十年路[N];电脑报;2002年
3 施文元;从重油中提取更多财富[N];中国化工报;2002年
4 计算机世界实验室 吴挺;Maya的艺术魅力[N];计算机世界;2009年
5 吴晨 陈晓;增产不增污 环保工作再进步[N];中国医药报;2001年
6 狂马;免费阵营[N];中国电脑教育报;2002年
7 胡春民;MD搅动音响市场[N];中国电子报;2002年
8 本报记者 李健;数据中心大集中[N];网络世界;2001年
9 记者 顾钢;中国大学生赴德实习项目正式启动[N];科技日报;2009年
10 通讯员 傅宪峰 记者 宗建华;齐鲁催化剂厂成为高新企业[N];中国石化报;2000年
中国博士学位论文全文数据库 前10条
1 邵海明;准确校准大电流DCC的分布式均匀化空间磁势法研究[D];天津大学;2010年
2 姜洪伟;DCC基因在结直肠癌中的作用及化疗药对其影响的实验研究[D];吉林大学;2011年
3 王承忠;三叉神经中脑核发育的转录调控和内侧丘系轴突导向的分子机制[D];中国科学院研究生院(上海生命科学研究院);2007年
4 韩秀娟;基于动态流通语料库的通用词语用字研究及字词语关系考察[D];北京语言大学;2007年
5 王俊杰;肌球蛋白X在GnRH神经细胞迁移中的作用[D];东北师范大学;2009年
6 刘明利;儿童急性淋巴细胞白血病及细胞系p73、DCC、nm23-H1、nm23-H2和E2A-PBX1基因异常表达的研究[D];中国协和医科大学;2000年
7 魏红刚;下跌风险约束下的投资组合选择研究[D];南开大学;2010年
8 巨兴达;肌球蛋白10调控大脑皮层神经元辐射迁移的研究[D];东北师范大学;2013年
9 吴秉泽;两岸三地汇率联动性研究[D];南开大学;2013年
10 苏海军;基于Markov转换动态条件相关分析的危机传染研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵东栋;DCC在胼胝体发育中的作用研究[D];东北师范大学;2013年
2 黄欢;跑台运动训练对脑缺血损伤大鼠netrin-1及其受体DCC、Unc5B表达的影响[D];福建医科大学;2011年
3 龙陈艳;广西散发性结直肠癌DCC基因点突变及杂合性缺失研究[D];广西医科大学;2010年
4 林海华;脂筏—依赖性受体DCC信号在Netrin-1调节肝癌细胞极性中的作用研究[D];华中科技大学;2011年
5 田小英;DCC和C-erbB-2在子宫颈癌中的表达及临床意义[D];大连医科大学;2008年
6 秦树桐;神经突起导向因子netrin-4功能鉴定与受体研究[D];中国人民解放军军事医学科学院;2006年
7 余科科;神经突起诱向因子(Netrin-4)受体的初步研究[D];安徽医科大学;2006年
8 易卫国;13-cis-维A酰衍生物的合成新方法研究[D];湖南大学;2006年
9 罗志刚;基于DCC和JTAG的ARM硬件仿真调试器的研究与实现[D];成都理工大学;2008年
10 陈玮;中国资本市场开放进程中股市联动性的实证分析[D];浙江工商大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026