收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

在自然汉语中进行分词和词性标注

刘东旭  
【摘要】: 分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进行总结、改进、提高,对后续研究提供更完善的支持。 分词在以前的研究中主要采用将MM法(正向最大匹配)、RMM法(逆向最大匹配)相结合的方法,并且对其中的最大交集字段采用比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统计的基础上,将最大交集字段分为三类,并分别对其进行处理,极大的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本中对姓氏、名字用字、姓名前后常用字三方面进行考察。采用在分词后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确率都达到90%以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化,这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的对象进行词性判断。 本课题还有一个任务就是将前几届师兄所做课题从VC移植到JAVA上去,以便于在网上公布。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张永奎;张彦;安增波;刘睿;;Web新闻语料分词和标注错误分析[J];计算机工程与应用;2007年15期
2 付国宏,王晓龙;面向真实文本的汉语词法自动分析系统[J];高技术通讯;1999年12期
3 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
4 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
5 孙霞,郑庆华,王朝静,张素娟;一种基于生语料的领域词典生成方法[J];小型微型计算机系统;2005年06期
6 亢临生,张永奎;基于标记的分词算法[J];山西大学学报(自然科学版);1994年03期
7 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
8 耿骞,毛瑞;汉语自然语言检索中的词法分析处理[J];情报科学;2004年04期
9 王卓滂,徐汀荣;电子商务系统的一种自动撮合算法的研究与实现[J];计算机时代;2005年08期
10 杨梅樾;马祥杰;;输入排队中调度算法的研究[J];信息工程大学学报;2006年02期
11 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
12 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
13 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
14 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
15 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
16 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
17 吴杨;;词性标注对外文信息检索系统性能的影响[J];民营科技;2011年05期
18 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
19 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期
20 肖丽;校景中;;基于RKRGST的算法分析[J];西南民族大学学报(自然科学版);2010年05期
中国重要会议论文全文数据库 前10条
1 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
6 李晶;陈鄞;杨沐昀;徐冰;;关于在分词系统中引入领域词典的研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
3 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
4 刘岩;关于图的最大匹配问题的若干结果[D];郑州大学;2000年
5 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
8 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
9 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
10 丁建完;陈述式仿真模型相容性分析与约简方法研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
5 陆军;基于最大匹配的论文特征提取系统的设计与实现[D];电子科技大学;2012年
6 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
7 张俊英;基于谱聚类的图书目录重构[D];浙江大学;2010年
8 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
9 孙晓峰;基于轻量级框架的互动问答平台的设计与实现[D];中国地质大学(北京);2008年
10 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
中国重要报纸全文数据库 前10条
1 记者 薛亚芳;就业机会近三成因供求错位而流失[N];人才市场报;2007年
2 仇职;北京缺口最大的十大职业[N];北京科技报;2003年
3 记者 刘国铮;本市第三季度劳动力市场需求增幅大[N];首都建设报;2006年
4 刘 军;职业匹配问题值得特别关注[N];经济参考报;2003年
5 李蕾;结构性矛盾长期存在制造业用工需求饱满[N];解放日报;2007年
6 李蕾;三季度企业用工需求稳定[N];解放日报;2008年
7 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
8 张薇嫣;证券业缺口最大[N];上海金融报;2007年
9 撰文 雪槐;金融业人才供求量大增[N];上海金融报;2008年
10 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978