收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分词及词性标注自动校对方法研究

钱揖丽  
【摘要】: 语料库建设是中文信息处理研究的基础性工程。汉语语料的基本加工过程,包括自动分词和词性标注两个阶段。自动分词和词性标注在很多现实应用(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着关键角色,为众多基于语料库的研究提供重要的资源和有力的支持。 语料库的有效利用在很大程度上依赖于语料库切分和标注的层次和质量。当前对汉语语料的加工结果,虽已取得了一定的成绩,但国家的评测结果表明,其离实际需要的差距还是很大的,还有待于进一步的提高。 本文以进一步提高汉语语料库分词和词性标注的正确率,提高汉语语料的整体加工质量为目标,分别针对语料加工中的分词和词性标注两个阶段进行了研究和探讨: 1.讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的学习,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对。 2.讨论和分析了词性标注的现状,并针对词性标注问题,提出了一种基于粗糙集的兼类词词性标注校对规则的自动获取方法。该方法以大规模汉语语料为基础,利用粗糙集理论及方法为工具,挖掘兼类词词性标注校对规则,并应用规则对机器标注结果进行自动校对。 3.设计和实现了一个中文文本分词及词性标注自动校对实验系统,并分别做了封闭测试、开放测试及结果分析。根据实验,分词校对封闭测试和开放测试的正确率分别为93.75%和81.05%;词性标注校对封闭测试和开放测试的正确率分别为90.40%和84.85%。


知网文化
【相似文献】
中国期刊全文数据库 前10条
1 黄魏;高兵;刘异;杨克巍;;基于词条组合的中文文本分词方法[J];科学技术与工程;2010年01期
2 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
3 孟祥成;;基于Lucene和Heritrix技术搜索引擎的设计与实现[J];中国现代教育装备;2010年03期
4 刘玲玲;梁颖红;张永刚;韩艳;姚建民;;基于决策树的关键短语抽取[J];江南大学学报(自然科学版);2010年01期
5 唐旭日;陈小荷;许超;李斌;;基于篇章的中文地名识别研究[J];中文信息学报;2010年02期
6 石民;李斌;陈小荷;;基于CRF的先秦汉语分词标注一体化研究[J];中文信息学报;2010年02期
7 唐琴;林鸿飞;;文本中人物性别识别研究[J];中文信息学报;2010年02期
8 胡军光;刘力;车奇;;基于词性的文本挖掘算法在IDS日志中的应用[J];计算机与数字工程;2010年02期
9 马连刚;夏克俭;;中医方剂与图集的转换的设计与实现[J];网络安全技术与应用;2010年02期
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[J];情报学报;2010年01期
中国重要会议论文全文数据库 前10条
1 邢富坤;宋柔;罗智勇;;SSD模型及其在词性标注中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 李军辉;周国栋;朱巧明;钱培德;;一种改进的中文层次句法分析模型研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 张碧川;王小捷;徐文智;刘冬雪;;汉语儿童口语语料库的建立及语料初步统计分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 谢丽星;孙茂松;佟子健;王灿辉;;基于用户查询日志和锚文字的汉语缩略语识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 王治敏;;汉语常用名词的自动提取研究—兼论《汉语水平词汇与汉字等级大纲》的词语更新问题[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 陈瑛;李逸薇;黄居仁;;非监督的汉语感情语料库的构建及分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 邱立坤;张晓巧;毛宁;;现代汉语复合词内部结构词典的构建[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 梁塽;许洁萍;;基于歌词的中文流行歌曲音乐结构分析算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
中国博士学位论文全文数据库 前9条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
5 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
6 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
7 景盛轩;敦煌本《大般涅槃经》研究[D];浙江大学;2004年
8 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
9 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
2 梅君;中文文本分类的研究与应用[D];南昌大学;2010年
3 潘炜;面向层次分类标签的词性标注系统[D];复旦大学;2009年
4 郭英华;面向信息处理的介词“到”及其结构的自动识别研究[D];上海师范大学;2009年
5 王晶;基于Web信息获取的新闻数据分析研究[D];华东师范大学;2009年
6 陈艳;面向web的企业竞争情报获取[D];中国科学技术大学;2009年
7 徐亮;中文新词识别研究[D];大连理工大学;2009年
8 王泽胤;全文信息检索的快速索引文件结构及系统的设计与实现[D];吉林大学;2009年
9 张启杰;基于文本语义水印的数字签名技术研究[D];江苏大学;2009年
10 杨丽萍;基于中文分词的图文自动匹配方法研究[D];福建师范大学;2009年
中国重要报纸全文数据库 前10条
1 电脑商报记者 彭敏;文档管理走向智能化[N];电脑商报;2009年
2 本报记者 黄智军;搜狗 探索5年后成搜狐一大支柱[N];计算机世界;2009年
3 邱旭光 记者 王利权;泸县残联 手语培训沟通无障碍[N];泸州日报;2008年
4 郭延礼;都德《最后一课》的首译、伪译及其全译文本[N];中华读书报;2008年
5 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
6 沈占锋;放在衣兜里的动态地图[N];计算机世界;2007年
7 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
8 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
9 郑依华;搜索引擎也开源[N];计算机世界;2006年
10 无锡市北高中 倪林生;辞书修订更须规范[N];中华读书报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978