收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

规则与统计相结合的中文分词方法研究

张剑锋  
【摘要】: 随着信息时代的到来,计算机在人们生产生活的各个方面作用越来越突显。目前,在机器翻译、语音识别、信息检索等许多领域对语料库的使用越来越多,要求也越来越高,对语料库进行分词成为建立汉语语料库资源的首要任务。随着中文信息处理研究的深入,中文文本自动分词问题已经引起相当程度的重视,成为中文信息处理的一个前沿课题。经过几十年的研究,中文文本自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,这些分词系统在分词的精确度和分词速度方面都具有相当水平,但无论按照人的智力标准,还是同实用的需要相比较,还有一定的差距。 在本文中,我们以加工后的训练语料为研究对象,提出了一种规则与统计相结合的中文分词方法。该方法根据中文分词中所遇到的问题,对其进行归类并利用规则与统计相结合的思想对分词结果进行逐步的优化,最终达到一个较理想的结果。 主要的研究内容有以下几方面: 1.通过对大量训练语料的统计与分析,建立歧义字段资源库,深入分析了歧义字段的内部特征和上下文环境特征,为解决歧义字段问题建立了语言学基础。对训练语料中所出现的歧义字段进行真伪歧义分析,建立相应的真歧义库和伪歧义库。 2.统计并分析真歧义与伪歧义各自不同的语言现象和规律,对其进行进一步的分类,为歧义字段的处理策略提供依据,进而为概率模型的建立提供支持。此外,在概率模型的建立过程中,使用了《同义词词林》作为语义资源,对歧义字段的上下文环境进行了语义扩充。 3.通过对海量真实语料的分析和统计,提取其中所出现的未登录词,充分考虑未登录词的内部结构,抽取和统计未登录词的内部信息,建立了未登录词资源库,并利用内部信息建立未登录识别的概率模型。 4.通过对未登录词的上下文环境信息的分析,提取未登录词识别的实用规则,建立未登录词识别的规则库,进而提高概率模型的识别效果。 我们通过对微软亚洲研究院2005年提供的SIGHAN简体中文语料库(MSR)的400万语料进行模型的训练和检测,发现该策略在歧义字段的处理上有较好的效果。为了进一步检验规则与统计相结合的分词方法的有效性,我们参加了SIGHAN第四届国际中文自然语言处理Bakeoff SIGHAN 2008国际分词评测,并参加了NCC分词的开放测试,并在词表词识别率上达到96.9%,进一步证明该模型在解决歧义字段问题是有效的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 冯乃勤;王善侠;敖连辉;徐久成;张新明;;形态学联想记忆存储性能的研究[J];计算机工程与应用;2011年21期
3 金圣华;刘红;;基于概率模型-gMOS的基因芯片数据分析[J];电脑知识与技术;2011年25期
4 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
5 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
6 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
7 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
8 宋朝河;戎皓;;侦察装备的可靠性概率模型及其应用[J];兵工自动化;2011年06期
9 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
10 王凌;王圣尧;方晨;;一种求解多维背包问题的混合分布估计算法[J];控制与决策;2011年08期
11 王青亮;张杰;;列控车载设备故障模型分析及探讨[J];科技资讯;2011年21期
12 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
13 刘洋;肖宝秋;戴光明;;基于概率模型的混合多目标算法[J];计算机应用;2011年09期
14 艾春璐;陈莹;;均衡化概率模型及其在特征匹配中的应用[J];计算机工程与设计;2011年09期
15 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
16 陈白;王丽丽;李玉仙;杜硕;郝晓辰;;基于能耗均衡的WSN连通覆盖集构建算法[J];计算机工程;2011年18期
17 王丽芳;曾建潮;洪毅;;利用Copula函数估计概率模型并采样的分布估计算法[J];控制与决策;2011年09期
18 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
19 孙洪胜;李宇鹏;王成;龚瀚涛;;基于计算机视觉的苹果在线高效检测与分级系统[J];仪表技术与传感器;2011年06期
20 周非;范馨月;何伟俊;;基于检测概率模型的多信号组合滤波算法研究[J];信号处理;2011年08期
中国重要会议论文全文数据库 前10条
1 张少华;言茂松;;抽水蓄能电站调峰效益的经济评价[A];1995中国控制与决策学术年会论文集[C];1995年
2 王世忠;;公路桥梁恒载的概率模型[A];全国桥梁结构学术大会论文集(上册)[C];1992年
3 段权;;压力容器用16MnR钢焊接接头疲劳裂纹扩展规律的研究[A];疲劳与断裂2000——第十届全国疲劳与断裂学术会议论文集[C];2000年
4 王冰洁; 沈玉清;;中国上市公司被收购风险概率模型的实证分析[A];中国灾害防御协会风险分析专业委员会第二届年会论文集(一)[C];2006年
5 谢柏桥;戴光明;郑蔚;王剑文;;有指导的多目标演化算法在区域星座设计中的应用[A];中国宇航学会深空探测技术专业委员会第四届学术年会论文集[C];2007年
6 陈学前;肖世富;刘信恩;;基于概率模型的圣地亚结构动力学问题模型确认[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年
7 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 马治飞;徐望;王炳锡;王兴斌;;一种基于概率模型和倒谱差分的特征补偿算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 那键;刘文芬;;乘加型钟控组合生成器的符合率问题[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 刘扬;混凝土斜拉桥施工期的时变可靠性研究[D];湖南大学;2005年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
5 李富民;氯盐环境钢绞线预应力混凝土结构的腐蚀效应[D];中国矿业大学;2008年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 黄晓英;钟控生成器概率模型输出序列的性质研究[D];中国人民解放军信息工程大学;2003年
8 吴晶晶;PKI关键理论与应用技术研究[D];中国科学技术大学;2008年
9 孙庆杰;静态图像中人体检测技术研究[D];中国科学院研究生院(软件研究所);2004年
10 郭丽峰;电梯导轨不平顺度测量、建模及轿箱水平振动特性的研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 张剑锋;规则与统计相结合的中文分词方法研究[D];山西大学;2008年
2 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
4 李必德(Peter Zimmerli);亚洲台风模型需要精益求精[N];中国保险报;2006年
5 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
6 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
7 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
8 万云;以信用风险管理的名义[N];中国经营报;2006年
9 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
10 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978