收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文新词识别研究

徐亮  
【摘要】: 随着互联网技术的飞速发展,越来越多的新词出现在人们的日常生活中,新词虽然丰富了人们的日常表达,却给中文信息处理带来了挑战。由于新词的存在,词法分析器在分词时常常出现过多的“词碎片”,这在很大程度上影响了分词的精度。目前针对命名实体等专有新词的研究已经比较成熟,而对于普通新词的识别尚在不断探索中。 本文采用统计与规则相结合的方法识别新词。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。 首先从因特网上下载大规模的新闻语料,经过删除HTML标签等预处理操作后得到纯文本语料;在对语料进行分词和词性标注的基础上,依据分词碎片的词性和停用词表等规则进行重复串的查找,得到单字串模式的候选新词和后缀串模式的候选新词。 对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词。 在使用内部词概率模型的基础上对左右信息熵的方法和平均互信息的方法进行比较。实验结果表明,左右信息熵的方法效果优于平均互信息的方法。前者的F-值为49.81%,高于后者的F-值46.69%。在使用内部词概率模型的基础上,将平均互信息和左右信息熵结合起来识别新词的准确率和召回率分别为70.08%和77.54%,这表明平均互信息和左右信息熵在识别新词上具有一定的互补性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;宏基建立全球性中文信息网[J];山西电子技术;1997年03期
2 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
3 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
4 ;书讯[J];中文信息学报;2010年02期
5 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
6 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
7 ;读者天地[J];中文信息;1994年01期
8 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
9 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
10 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
11 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
12 ;全国高师中文信息资料协会第八次代表会议暨学术研讨会在呼市召开[J];情报资料工作;1999年06期
13 ;中国中文信息学会第五次全国会员代表大会暨学会成立二十周年学术年会征文通知[J];中文信息学报;2001年04期
14 ;中文信息技术产品有了认证中心[J];信息技术与标准化;2001年06期
15 真鸣;中文信息研究会少数民族专委会成立大会简况[J];计算机学报;1986年01期
16 曹军;;中文信息速录成新宠[J];互联网天地;2007年12期
17 张寿萱;SYSTEM C——一个多功能中文信息综合处理系统[J];计算机学报;1984年06期
18 ;COLING 2010即将在北京召开[J];中文信息学报;2010年03期
19 汤九斌;西文UNIX系统用户浏览Internet网中文信息的方法[J];中国计算机用户;1997年08期
20 ;《中文信息学报》征稿简则[J];中文信息学报;2011年02期
中国重要会议论文全文数据库 前10条
1 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 ;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 ;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 ;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 ;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年
6 ;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 ;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
8 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
9 嘎日迪;吾守尔.斯拉木;德熙嘉措;;代序[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
2 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
3 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
4 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
5 蒋本蓉;“意思—文本”模式的词库理论与词库建设[D];黑龙江大学;2008年
6 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
7 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
8 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
9 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
10 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
中国硕士学位论文全文数据库 前10条
1 喻琦;中文微博情感分析技术研究[D];浙江工商大学;2013年
2 张永田;词激活力模型在中文词发现中的应用研究[D];北京邮电大学;2013年
3 梁超;中文类比检索方法研究[D];华东师范大学;2013年
4 程舰;基于内容的Internet Web中文信息过滤[D];北京交通大学;2011年
5 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
6 徐霞;半监督中文事件抽取方法的研究[D];苏州大学;2014年
7 严孙荣;中文产品评论的意见挖掘研究[D];北京交通大学;2010年
8 张鹏;中文意见挖掘的特征层次构建和抽取算法[D];重庆大学;2010年
9 黄媛;中文事件论元抽取研究[D];苏州大学;2014年
10 屠卫;基于上下文感知的中文新词识别技术研究[D];郑州大学;2012年
中国重要报纸全文数据库 前10条
1 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
2 ;中文信息应用网络应运而生[N];网络世界;2001年
3 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
4 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
5 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
6 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
7 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
8 本报记者  管宏业;新标致307:外观小改 品质大增[N];中国商报;2006年
9 阿祥;没有文化 网站将会怎样?[N];中国信息报;2001年
10 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978