收藏本站
《中国科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模语料的中文新词识别技术研究

张海军  
【摘要】:中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。 汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下: 首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。 为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。 在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。 最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 李琪;郭敏;;基于字典树的基数排序算法[J];硅谷;2011年14期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 李璐;王宏志;李建中;高宏;;Ed-Sjoin:一种优化的字符串相似连接算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 周学广;张焕国;;一种柔性中文字符串匹配算法[A];第二十七届中国控制会议论文集[C];2008年
5 运正佳;李轶男;杨晓春;;支持带有通配符的字符串匹配算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
6 郭曙纶;方有林;;网络汉字的大规模统计与分析[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 杨翠兰;;基于语料统计的汉语成语语法功能研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 张普;;关于大规模真实文本语料库的几点理论思考[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
9 张耀允;王晓龙;王轩;徐睿峰;侯永帅;范士喜;;面向开放的限定领域的交互式问答语料分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 王正飞;王曼;汪卫;施伯乐;;数据库中加密字符数据的存储与查询[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前5条
1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
2 ;编程沙龙[N];电脑报;2003年
3 XB;Excel工作表转数据库要注意[N];电脑报;2003年
4 江苏 王鑫;用Delphi实现文本加密[N];电脑报;2002年
5 重庆 彭禾;再谈批量转换区位码[N];中国电脑教育报;2000年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
3 胡昌慧;车载自组网络安全协议和安全字符串匹配协议研究[D];山东大学;2012年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 丁杰;无限制手写体数字串切分与识别的相关问题研究[D];南京理工大学;2010年
6 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 杨光;基于大型科学仪器工作站的屏幕图像识别与压缩技术研究[D];吉林大学;2011年
9 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
10 宋刚;普通话儿童早期动词习得:范畴、论元结构与句法线索[D];北京语言大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
2 李斌;最小公共字符串划分问题的算法研究[D];山东大学;2010年
3 史永泉;基于GPU的字符串核函数并行实现[D];山东大学;2012年
4 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
5 张予焓;产品评价对象的提取与分析[D];北京邮电大学;2010年
6 郭站洗;一种基于优化的LCP表的频繁字符串挖掘算法[D];兰州大学;2011年
7 陈围;高速IP网络中深度包检测算法研究[D];解放军信息工程大学;2011年
8 王玉琼;副词“再”的习得情况考察[D];复旦大学;2010年
9 张利香;基于后缀数组的字符串模式查找的算法[D];西北师范大学;2010年
10 张征;基于领域本体的产品评价研究[D];河南师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026