基于条件随机场的汉语分词研究
【摘要】:
随着Internet技术的迅速发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分词的基础之上,因而分词的准确程度将直接影响到一系列的后续处理。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的瓶颈问题。
条件随机场是用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。
本文系统地描述了条件随机场的定义、模型结构、势函数表示、参数估计及其训练方法等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用SIGHAN比赛的国际标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在PKU语料库上的实验表明:字位置概率特征的引入,使结果F1值提高了3.5%,达到94.5%。最后利用各分词系统的分词结果,运用“结果集成”方法,使分词系统的F1值进一步提高到95.6%。
|
|
|
|
1 |
佘莉,符红光,方海光;几何命题处理中的中文分词技术[J];计算机工程;2005年18期 |
2 |
史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期 |
3 |
姜文志;范洪达;聂心东;蒋伟俊;;作战命令的分词技术研究[J];海军航空工程学院学报;2008年01期 |
4 |
孙建军,陈肇雄,薛选民,郭喜林,侯敏;基于多功能逻辑运算分析技术的汉语分词[J];计算机研究与发展;1998年05期 |
5 |
张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期 |
6 |
尹锋;基于神经网络的汉语自动分词系统的设计与分析[J];情报学报;1998年01期 |
7 |
王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期 |
8 |
付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期 |
9 |
王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期 |
10 |
王红雨;一种实用智能答疑系统在现代远程教育中的应用[J];电脑开发与应用;2005年09期 |
11 |
火善栋;;有限状态机在中文文本分词中的应用[J];现代计算机(专业版);2010年06期 |
12 |
沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期 |
13 |
翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期 |
14 |
陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期 |
15 |
马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期 |
16 |
詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期 |
17 |
闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期 |
18 |
李正伟;汉语分词与词典自学习系统[J];内蒙古煤炭经济;2001年05期 |
19 |
左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期 |
20 |
刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期 |
|