收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的汉语分词研究

沈勤中  
【摘要】: 随着Internet技术的迅速发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分词的基础之上,因而分词的准确程度将直接影响到一系列的后续处理。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的瓶颈问题。 条件随机场是用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。 本文系统地描述了条件随机场的定义、模型结构、势函数表示、参数估计及其训练方法等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用SIGHAN比赛的国际标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在PKU语料库上的实验表明:字位置概率特征的引入,使结果F1值提高了3.5%,达到94.5%。最后利用各分词系统的分词结果,运用“结果集成”方法,使分词系统的F1值进一步提高到95.6%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 佘莉,符红光,方海光;几何命题处理中的中文分词技术[J];计算机工程;2005年18期
2 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
3 姜文志;范洪达;聂心东;蒋伟俊;;作战命令的分词技术研究[J];海军航空工程学院学报;2008年01期
4 孙建军,陈肇雄,薛选民,郭喜林,侯敏;基于多功能逻辑运算分析技术的汉语分词[J];计算机研究与发展;1998年05期
5 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
6 尹锋;基于神经网络的汉语自动分词系统的设计与分析[J];情报学报;1998年01期
7 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
8 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
9 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
10 王红雨;一种实用智能答疑系统在现代远程教育中的应用[J];电脑开发与应用;2005年09期
11 火善栋;;有限状态机在中文文本分词中的应用[J];现代计算机(专业版);2010年06期
12 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
13 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
14 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
15 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
16 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
17 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
18 李正伟;汉语分词与词典自学习系统[J];内蒙古煤炭经济;2001年05期
19 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
20 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
7 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
4 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
9 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
10 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978