收藏本站
《武汉理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

词典与统计相结合的中文分词的研究

岳中原  
【摘要】: 随着社会信息化的发展,人们很容易获得海量信息。但是要处理海量信息,靠人工是不可能的,必须依靠计算机的帮助。和西方语言不同,中文中的词与词之间没有明显的切分标志。所以,要使计算机能够处理中文文本,就必须先进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作,但其结果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现,现有的中文自动分词系统还没有达到令人满意的效果。 本文分析了当前中文分词已经实际使用的算法,各种分词词典组织形式,并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统计相结合的中文分词算法,解决了一部分条件下的人名,地名,机构名,数量词等类型的未登录词以及交集型歧义引起的切分错误问题。 本文采用了统计和词典相结合的复合分词方法,在多个方面进行了改进。在统计方面,通过对第一次分词结果中碎片的统计,识别出在文本中出现过超过一次的未登录词,并将其加入临时词典;对词典的组织结构进行了改进,把单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织结构,根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点,采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储,并在词条中加入词频信息用于歧义消解,扩展词典则包括数量词词典,姓氏词典,临时词典,停用字词典等,它们将分别用于数量词和命名实体识别等;通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量;使用改进的正向最大匹配分词法对文本进行第二次分词,并使用统计的方法消除部分歧义;最后使用规则的方法,在机械分词结果中识别出在文本中只出现一次的未登录词。由于命名实体中人名识别的上下文限定条件最多,所以识别效果最好,机构名组成结构最复杂,识别效果也最差,所以本文是依次进行人名,地名和机构名的识别。 通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力,基本上可以满足中文信息处理实际应用的要求。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
2 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
3 强永妍;杨庚;;中文垃圾邮件的索引分词法的研究与设计[J];计算机应用;2007年09期
4 陈飞;王秀峰;饶一梅;;一种混合的中文分词算法[J];南开大学学报(自然科学版);2007年05期
5 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
6 沈静;;基于串频统计和词形匹配的分词系统[J];中国高新技术企业;2008年13期
7 刘峰,王秀坤,杨南海,马霖;中英文专业搜索引擎中数据采集加工的设计与实现[J];计算机应用研究;2004年10期
8 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期
9 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
10 宗乾进;游静;;基于二元中文分词的高效检索算法研究[J];图书情报工作;2009年22期
中国重要会议论文全文数据库 前10条
1 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陆福庆;;词典的收词问题[A];辞书编纂经验荟萃[C];1992年
3 徐祖友;;谈谈词典的附录[A];辞书编纂经验荟萃[C];1992年
4 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
5 晁继周;;关于汉语规范型词典收词问题的思考[A];中国辞书论集1999[C];1999年
6 李尔钢;;词典的编排与检索[A];辞书编纂经验荟萃[C];1992年
7 徐庆凯;;为专题词典正名[A];中国辞书论集2000[C];2000年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 唐宋;一本词典见证时代变迁[N];人民日报;2005年
2 洪玉华 冯威 公权 (本报记者 洪玉华 冯威);两岸合编中华大词典 共襄民族共同语[N];中国新闻出版报;2009年
3 本报见习记者 范昕;要不要把“热词”当回事儿?[N];文汇报;2009年
4 钰添 编译;法国秋季词典市场 三大主角上演新三国演义[N];中国图书商报;2004年
5 庞可慧;“期待”不“期待”,观众说了算[N];语言文字周报;2010年
6 记者 陈菁霞;国内首部内向型汉语学习词典近日面世[N];中华读书报;2010年
7 记者 周翼双;众多新词进入新版《现代汉语规范词典》[N];中国新闻出版报;2010年
8 李高超巩晓俐;哈利·波特上法院[N];国际商报;2008年
9 黄敏;翻翻新版《韦氏大词典》,不然你OUT了[N];新华每日电讯;2009年
10 本报记者 张贵勇;维基百科:知识因草根而改变[N];中国教育报;2009年
中国博士学位论文全文数据库 前10条
1 吴晓真;英语为源语言词典编纂中的用户友善问题[D];复旦大学;2004年
2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
7 黄正;基于词典排序的群体理性聚合分析[D];西南大学;2012年
8 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
9 周作明;东晋南朝道教上清派经典行为词新质研究[D];四川大学;2007年
10 申修瑛;现代汉语词语搭配研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
2 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
3 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
4 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
5 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年
6 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
7 岳中原;词典与统计相结合的中文分词的研究[D];武汉理工大学;2010年
8 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
9 李宏波;综合字典和统计分析的中文分词系统的研究与实现[D];武汉理工大学;2010年
10 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026