收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大匹配的书面汉语自动分词研究

杨超  
【摘要】:书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入最大匹配法预处理分词,同时运用统计方法进行歧义切分和未登录词识别。 根据汉语中二字词较多的特点,给出一种改进的自动分词词典机制,该机制在词典数据结构中增加二字词检测位图表。在此基础上,对最大匹配分词算法进行改进,实现了一种基于二字词检测位图表的最大匹配分词算法,本算法利用二字词检测位图表快速判断二字词,减少词典匹配次数,以提高自动分词速度。针对伪歧义型高频最大交集型歧义字段在大型语料库中表现出较强的稳定性和一定的覆盖能力,歧义处理着重于研究该类歧义字段的自动获取,将它们的正确切分形式记录到歧义库中,其歧义消解通过直接查表实现,这在本质上是一种基于记忆的策略。未登录词识别技术研究着眼于Web资源中未登录词的获取,并提出一种基于Web查询曰志的未登录词识别算法,本算法分析Web查询日志的搜索关键字频度表识别未登录词。 基于上述研究结果,设计并实现了一个面向实际应用的书面汉语自动分词系统。实验结果表明:在相同条件下,基于二字词检测位图表的最大匹配分词算法较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,基于二字词检测位图表的最大匹配分词算法的查准率提高了3.57%,F-1测度提高了0.01,较原算法具有更好的性能。系统还具有较好的稳定性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
2 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
6 蒋发群,周经野,曹娟;隐式分词的中文输入法及其实现[J];湘潭大学自然科学学报;2003年03期
7 尹锋,林亚平;汉语自动分词技术的现状及发展趋势[J];软件世界;1996年12期
8 高文利;高元先;;基于三数组Trie索引树词典查询机制的分词系统[J];情报杂志;2009年02期
9 张民,李生,王海峰,赵铁军,王铁志;基于知识评价的快速汉语自动分词系统[J];情报学报;1996年02期
10 熊回香;;全文检索中的汉语自动分词及其歧义处理[J];中国图书馆学报;2005年05期
11 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
12 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
13 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
14 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
15 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
16 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
17 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
18 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
19 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
20 刘龙飞;陈斌;党荣;;基于CNET模型的无词典汉语自动分词算法研究[J];计算机应用与软件;2007年10期
中国重要会议论文全文数据库 前10条
1 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
2 肖航;靳光瑾;;现代汉语词语切分歧义库构建[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
3 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
4 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 朱晓旭;;汉字输入教学系统中词组切分方法的设计[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 李勤丰;;最大独立集在高校排课表系统中的应用[A];广西计算机学会2006年年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 刘岩;关于图的最大匹配问题的若干结果[D];郑州大学;2000年
3 丁建完;陈述式仿真模型相容性分析与约简方法研究[D];华中科技大学;2006年
4 王世英;图的匹配的若干结构性问题[D];郑州大学;2000年
5 翟绍辉;匹配可扩理论的若干新结果[D];厦门大学;2007年
6 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
7 崔筠;无向基因组的移位排序算法[D];山东大学;2006年
8 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
9 田学东;光学公式识别技术研究[D];河北大学;2007年
10 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
2 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
3 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
4 史伟;中文自动分词关键技术研究与实现[D];电子科技大学;2008年
5 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
6 唐霄;基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究[D];西南大学;2008年
7 夏俊鸾;一个基于分类规则发现的汉语消歧方法的设计与实现[D];苏州大学;2006年
8 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
9 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
10 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
中国重要报纸全文数据库 前10条
1 记者 薛亚芳;就业机会近三成因供求错位而流失[N];人才市场报;2007年
2 仇职;北京缺口最大的十大职业[N];北京科技报;2003年
3 记者 刘国铮;本市第三季度劳动力市场需求增幅大[N];首都建设报;2006年
4 李蕾;结构性矛盾长期存在制造业用工需求饱满[N];解放日报;2007年
5 刘 军;职业匹配问题值得特别关注[N];经济参考报;2003年
6 李蕾;三季度企业用工需求稳定[N];解放日报;2008年
7 张薇嫣;证券业缺口最大[N];上海金融报;2007年
8 撰文 雪槐;金融业人才供求量大增[N];上海金融报;2008年
9 欣欣;最低工资标准宜动态调整[N];中国改革报;2006年
10 张薇嫣李思;保险业人才需求旺盛[N];上海金融报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978