收藏本站
《电子科技大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

在自然汉语中进行分词和词性标注

刘东旭  
【摘要】: 分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进行总结、改进、提高,对后续研究提供更完善的支持。 分词在以前的研究中主要采用将MM法(正向最大匹配)、RMM法(逆向最大匹配)相结合的方法,并且对其中的最大交集字段采用比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统计的基础上,将最大交集字段分为三类,并分别对其进行处理,极大的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本中对姓氏、名字用字、姓名前后常用字三方面进行考察。采用在分词后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确率都达到90%以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化,这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的对象进行词性判断。 本课题还有一个任务就是将前几届师兄所做课题从VC移植到JAVA上去,以便于在网上公布。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP391.1

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王凤林;受限域问答式自然语言数据库查询研究[D];昆明理工大学;2010年
2 荆明明;基于Android的个性化RSS订阅系统的设计与实现[D];哈尔滨工业大学;2011年
3 曹帷;教学系统中的语音技术[D];天津师范大学;2006年
4 胡晓军;基于自然汉语的数据库查询研究[D];电子科技大学;2006年
5 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
6 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
7 张会鹏;中文词法分析技术的研究与实现[D];哈尔滨工业大学;2006年
8 毕莹;个性化RSS新闻检索系统设计与实现[D];哈尔滨工业大学;2007年
9 朱会亮;基于RSS信息源的服务型机器人网络检索系统的设计与实现[D];天津师范大学;2012年
10 梁晓龙;基于Android平台语音日程软件的设计与实现[D];北京邮电大学;2012年
【参考文献】
中国期刊全文数据库 前6条
1 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
2 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
3 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
4 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
5 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
6 沈达阳,孙茂松,黄昌宁;基于统计的汉语分词模型及实现方法[J];中文信息;1998年Z1期
【共引文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
3 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
4 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
5 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
6 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];国外语言学;1996年04期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 刘利东;信息源中专业词语的提取方法[J];德州学院学报(自然科学版);2002年02期
10 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
2 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
7 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 王迈;语言形式化原理[D];上海外国语大学;2011年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
7 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
8 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
9 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
10 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
2 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
3 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
4 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
7 李长进;基于中文带权关键词树的受限领域问答系统研究[D];山东经济学院;2011年
8 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
9 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
10 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
3 赵天忠,李慧丽,陈钊;森林资源信息集成系统解决方案的探讨[J];北京林业大学学报;2004年02期
4 吴保国;李成赞;马驰;张旸;;森林培育专家决策支持系统的研究[J];北京林业大学学报;2009年S2期
5 周俊宇;武刚;张莉莉;杨华;陈尚安;张仕响;;垂直细分林业商务门户的研建[J];北京林业大学学报;2009年S2期
6 朱淑鑫;谢忠红;;浅谈语音识别技术的应用及发展[J];长春理工大学学报(高教版);2009年02期
7 颜秀英,杨兴顺,邱广君;中文自然语言数据库查询系统[J];东北工学院学报;1992年01期
8 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
9 杨晓丽,孙莉;XML在Web信息资源整合中的应用[J];东华大学学报(自然科学版);2002年06期
10 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前6条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
4 史旻昱;基于RSS的个性化网络广告推荐系统研究[D];华中科技大学;2008年
5 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
6 符刚;管理信息成本论[D];西南财经大学;2008年
中国硕士学位论文全文数据库 前10条
1 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
4 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
5 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
6 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 张爱民;自然语言处理及其智能搜索引擎模型的设计研究[D];兰州理工大学;2003年
9 张占英;关于数据库汉语查询语句中查询信息的研究[D];河南大学;2004年
10 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
【二级引证文献】
中国期刊全文数据库 前7条
1 明小娜;龙毅;钱程扬;张翎;;基于受限自然语言的GIS命令解析方法[J];地球信息科学学报;2009年02期
2 高媛;刘大中;;中文文本分类方法比较研究[J];科技信息(科学教研);2008年02期
3 赵红梅;张阿红;;算法设计与分析综述[J];科技信息;2010年35期
4 谢振立;;浅析文本信息中情感偏向性的数据挖掘[J];中国新通信;2013年12期
5 褚颖娜;廖敏;宋继华;;一种基于统计的分词标注一体化方法[J];计算机系统应用;2009年12期
6 卢媛媛;何海燕;张剑;;电子商务搜索引擎中文分词算法分析[J];信息网络安全;2010年08期
7 赵呈领;陈怡;陈蒙蒙;黄琰;;基于个性化的教师专业发展支持系统研究[J];中国电化教育;2013年07期
中国博士学位论文全文数据库 前1条
1 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
2 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
3 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
4 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
5 彭浩林;基于内容的敏感信息过滤系统研究[D];武汉科技大学;2011年
6 韩月阳;基于S-EK图最短路径中文分词的研究[D];云南大学;2011年
7 李春成;《水浒传》词频分析[D];广西民族大学;2010年
8 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
9 张荣荣;面向领域的数据库问答系统关键技术研究[D];山东科技大学;2011年
10 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
【二级参考文献】
中国期刊全文数据库 前7条
1 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
2 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
3 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
4 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
5 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
6 郑家恒,刘开瑛;汉语姓名自动辨识初探[J];语言文字应用;1994年02期
7 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
2 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
3 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
4 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
5 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
6 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
7 吴杨;;词性标注对外文信息检索系统性能的影响[J];民营科技;2011年05期
8 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
9 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期
10 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
2 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
8 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 郭锐;;语文词典的词性标注问题[A];中国辞书学文集[C];1998年
中国重要报纸全文数据库 前6条
1 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
2 王小宁;辞书应慎用“规范”冠名[N];人民政协报;2004年
3 北京大学中文系 陆俭明;要对广大读者负责[N];中国社会科学院院报;2004年
4 语言所 董琨;错误百出 贻笑大方[N];中国社会科学院院报;2004年
5 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
6 记者 黄小希;部分电子词典内容“缩水”“注水”严重[N];新华每日电讯;2011年
中国博士学位论文全文数据库 前10条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
2 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
6 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
3 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
4 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
5 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
6 马晓娜;现代汉语词典词性标注对释义的影响[D];河北师范大学;2013年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
9 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
10 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026