收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的中文分词研究与应用

颜军  
【摘要】: 自然语言处理不仅是一门社会需求十分巨大的应用技术,而且也是一门具有非常重要科学意义的自然科学。由于汉语自身的特殊性,大多数汉语自然语言处理任务都需建立在汉语分词的基础之上,因而分词的准确程度将直接影响到一系列的后续研究和研究。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的首要问题。 条件随机场理论是近年来提出的,用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的生成模型那样的严格独立性假设,并克服了最大熵模型和其他非生成模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。 本文首先介绍了自然语言处理的研究状况,以及分词在自然语言处理中的重要性,继续介绍了当前常见的分词方法和各种分词方法的优点和缺点,分析了汉语自动分词研究面临的问题;本文系统地描述了条件随机场模型的定义、模型结构、参数估计及其语料库选取等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用长江日报社多年统计的标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在该语料库上的实验表明:字位置概率特征的引入,使结果准确率、召回率和F1值都到了明显的提高。 中文自动分词的有着广阔的应用范围,本文主要中文文本自动方面介绍了分词的应用。中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。本文依据条件随机场分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
2 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
3 刘一宁;;学术定义抽取研究综述[J];情报探索;2011年08期
4 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
5 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
6 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
7 ;Web 2.0下一步:电脑自动剖析信息[J];黄金时代;2009年03期
8 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
9 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
10 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
11 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
12 王波;;基于领域语料的专业英语教学词汇建构[J];电脑知识与技术;2011年13期
13 张海军;彭成;栾静;;基于外部排序的字串左右熵快速计算方法[J];计算机工程与应用;2011年19期
14 袁里驰;;基于词聚类的依存句法分析[J];中南大学学报(自然科学版);2011年07期
15 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
16 刘小明;樊孝忠;刘里;;融合事件信息的复杂问句分析方法[J];华南理工大学学报(自然科学版);2011年07期
17 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
18 李渝勤;甘润生;杨永红;施水才;;基于特征分选策略的中文共指消解方法[J];计算机工程;2011年18期
19 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
20 ;2011年选题方向和重点栏目组稿内容[J];计算机应用;2011年S1期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
5 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
6 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
4 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
9 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
10 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
4 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978