收藏本站
《华中师范大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

中文自动分词系统的研究

朱珣  
【摘要】:中文自动分词系统是利用计算机对中文文章进行自动分词、识别的计算机应用系统,它包括基本的自动分词方法、歧义处理和命名实体的识别等基本模块,其各部分相互依赖,共同决定该系统的质量、价值和应用水平。 中文自动分词方法分为机械分词方法和非机械分词方法。最大正向匹配法、逆向最大匹配法和逐词遍历法是三种最基本的机械分词方法。另外八种机械分词法只是在基本分词方法的基础上采用了一些技巧,它们不是纯粹意义的机械分词方法。专家系统方法是一种基于规则的分词方法,而神经元网络方法则将人工神经网络的基本原理应用于计算机汉语分词。 根据国内外对自动分词方法的研究和一些实用系统的设计,本文给出了自动分词系统的理论模型CWSM:M(F,W,T,K)的概念,即机械分词方法+分词词典+汉语言文本+知识库,并介绍了自动分词系统的评价标准。 分词过程中歧义的产生主要是由计算机分词产生的特有歧义、自然语言中的二义性歧义和由分词词库大小引起的歧义等三类组成。歧义字段可从三个方面进行分类。从分词的切分结果可分为两类:真歧义和伪歧义;从切分歧义所需的知识层次,可分为三类:语法歧义、语义歧义和语用歧义;从歧义字段的结构可分为交集型歧义字段和多义型歧义字段。交集型歧义字段的切分可采用基于统计的方法和基于规则(词性)方法。对多义型歧义字段的处理分别从句法歧义、语义歧义和语用歧义三个方面进行。 中文信息处理中,处理的最多的就是名词。特别是对专有名词的处理是中文自动分词中的又一个难点。本文分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别技术。对地名的识别则利用知识库和规则库,采用推理机制技术进行分析;对机构名称的识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。同时,简要分析了机构名称与人名、地名的关系。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 吴启德,吕强;一个比较不同中文分词法的软件[J];苏州大学学报(工科版);2004年06期
3 于清;陈永杰;丁岩;;适用于医疗卫生领域的中文分词方法研究[J];新疆师范大学学报(自然科学版);2017年01期
4 刘泽文;丁冬;李春文;;基于条件随机场的中文短文本分词方法[J];清华大学学报(自然科学版);2015年08期
5 沈静;;浅析中文分词方法[J];漳州职业技术学院学报;2016年03期
6 王永成;论中文的电脑分词[J];应用科学学报;1985年02期
7 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
8 路永刚;赵伟;;一种改进的MM分词方法的研究与实现[J];长春工业大学学报(自然科学版);2006年04期
9 邓宏涛;中文自动分词系统的设计模型[J];计算机与数字工程;2005年04期
10 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
中国重要会议论文全文数据库 前10条
1 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
3 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 陈晓;靳光瑾;黄昌宁;;基于字的分词方法的实验研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 辛振球;杨鉴;方媛;王昱;;采用机器学习模型的傣语分词方法?[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
7 王俞霖;孙乐;李文波;;基于单字消除和实体识别的查询切分研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 ;中文版权目录[A];计算机在土木工程中的应用——第十届全国工程设计计算机应用学术会议论文集[C];2000年
中国重要报纸全文数据库 前10条
1 余咏思;外语中文译写规范部际联席会议专委会第七次审议会召开[N];语言文字报;2019年
2 记者 许惟一 窦元娜;安娜·约万诺维奇:中文是我的事业,更是我的生命[N];国际出版周报;2018年
3 伊斯梅尔·艾纳舍 王会聪 译;非洲年轻人欢迎中文课程[N];环球时报;2018年
4 记者 乐琰;“海外中国年”人气旺 中文服务成多国标配[N];第一财经日报;2019年
5 驻法国特约记者 孙骅;中文课日益受到法国学校青睐[N];中国文化报;2019年
6 安庄好;说中文写中文,当用性别包容性语言[N];中国妇女报;2019年
7 徐迅雷;谷雨·联合国·中文日[N];杭州日报;2019年
8 本报记者 何卓谦 郭芳;意品牌创始人中文表示“对不起”[N];环球时报;2018年
9 本报驻联合国记者 贾泽驰;“学好中文,做明智的全球公民”[N];文汇报;2019年
10 本报驻柏林记者 赵海博;中文课成德国高中“金字招牌”[N];文汇报;2019年
中国博士学位论文全文数据库 前2条
1 謝惠芝;香港中职生中文愉快学习的影响因素及其促进研究[D];陕西师范大学;2016年
2 张莉;跨领域中文评论的意见挖掘研究[D];南京大学;2012年
中国硕士学位论文全文数据库 前10条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 柴宝杰;中文自动分词若干技术的研究[D];燕山大学;2007年
3 刘韬;位置服务中的中文自动分词技术研究与应用[D];浙江大学;2007年
4 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
5 张金龙;中文自动分词技术的改进与优化研究[D];江苏科技大学;2013年
6 王万超;郑州电视台中文自动分词系统研究与实现[D];电子科技大学;2009年
7 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
8 史伟;中文自动分词关键技术研究与实现[D];电子科技大学;2008年
9 张彬;面向中文网络信息检索的自动分词系统设计与算法实现[D];华东师范大学;2007年
10 刘煜;移动端分词方法的研究与实现[D];东南大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026