最大熵方法及其在自然语言处理中的应用
【摘要】:近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件推动了基于语料库的统计自然语言处理方法成为目前自然语言处理研究领域的一个热点。最大熵方法是一种基于统计的机器学习方法,近10年来,成功应用于自然语言处理的许多领域,并且都接近或达到最佳水平。
所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型:在满足约束的模型中选择熵最大的那个。最大熵方法的优点在于它有简单的哲学原理以及数学推理作为基础,在最大熵模型这个统一的框架下,非常方便的使用多种特征,而且特征之间没有独立性假设,模型表达能力强。它的缺点是训练速度非常慢,耗资源。
在这篇论文中,我们首先介绍最大熵方法的基本原理,数学推导和基本算法。然后分别从训练和执行两个方面提出快速方法:选择性增益计算方法和稀疏特征树方法。选择性增益计算是一种快速的特征选择方法,它能使特征选择的速度提高2到3个数量级。稀疏特征树是一种高效的特征集合表示方法,基于稀疏特征树的特征匹配算法的时间复杂度与特征个数的对数成正比。最后介绍我们实现的最大熵通用工具包,以及把最大熵方法用于自然语言处理的一些实践。
【关键词】:最大熵方法 最大熵模型 自然语言处理 特征选择 特征匹配 【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.1
【DOI】:CNKI:CDMD:1.2005.121138
【目录】:
- 第1章 引言8-13
- 1.1 自然语言处理现状8-10
- 1.1.1 统计自然语言处理9-10
- 1.2 最大熵方法的历史与现状10-12
- 1.2.1 最大熵方法的历史10
- 1.2.2 主要研究方向和进展10-12
- 1.2.3 最大熵方法在自然语言处理中的应用12
- 1.3 论文组织12-13
- 第2章 最大熵方法13-30
- 2.1 最大熵方法概述13-21
- 2.1.1 一个例子13-14
- 2.1.2 条件最大熵模型14-15
- 2.1.3 模型框架15-17
- 2.1.4 特征17-19
- 2.1.5 最大熵原则的数学表示19
- 2.1.6 参数形式19-21
- 2.1.7 最大似然估计(MLE)21
- 2.2 模型选择21-25
- 2.2.1 GIS算法22-24
- 2.2.2 IIS算法24
- 2.2.3 SCGIS算法24-25
- 2.3 特征选择25-29
- 2.3.1 基于频数阈值的特征选择27-28
- 2.3.2 增量式特征选择28-29
- 2.3.2.1 IFS算法28-29
- 2.3.2.2 选择性增益计算(SGC)算法29
- 2.4 本章小结29-30
- 第3章 快速特征选择方法30-47
- 3.1 特征选择简介30-31
- 3.2 增量式特征选择31-34
- 3.2.1 IFS算法32-34
- 3.3 选择性增益计算的特征选择34-40
- 3.3.1 假设35
- 3.3.2 实验观察35-37
- 3.3.3 SGC算法描述37-39
- 3.3.4 初始增益的计算39
- 3.3.5 LA-SGC算法39-40
- 3.4 实验40-43
- 3.5 SGC算法和频数阈值方法的组合43-46
- 3.6 本章小结46
- 申明46-47
- 第4章 高效特征匹配方法47-67
- 4.1 条件最大熵执行系统47-48
- 4.2 特征的表示48-50
- 4.3 特征匹配50-51
- 4.4 特征树51-55
- 4.4.1 特征树的生成53-54
- 4.4.2 特征树的查找54-55
- 4.5 稀疏特征树55-60
- 4.5.1 稀疏特征树的生成57-59
- 4.5.2 稀疏特征树的查找59-60
- 4.6 实验分析60-66
- 4.6.1 特征匹配时间分析61-62
- 4.6.2 比较特征匹配时间62-64
- 4.6.3 特征树生成的时空复杂性分析64-66
- 4.7 比较与讨论66-67
- 第5章 应用67-81
- 5.1 通用最大熵工具67-70
- 5.1.1 训练样例的表示68-69
- 5.1.2 训练系统选项69
- 5.1.3 执行系统69-70
- 5.2 基于最大熵方法的自然语言处理工具70-74
- 5.2.1 英文断句71-72
- 5.2.2 英文词性标注72
- 5.2.3 基本短语识别72-74
- 5.2.3.1 中文基本短语识别73-74
- 5.2.3.2 英文基本短语识别74
- 5.3 指代消解74-78
- 5.3.1 属性计算75-76
- 5.3.2 训练与执行76-77
- 5.3.3 实验结果77-78
- 5.4 QA系统置信度评分算法78-80
- 5.5 本章小结80-81
- 第6章 总结与展望81-83
- 6.1 总结81
- 6.2 展望81-83
- 参考文献:83-88
- 攻读博士期间主要工作88-89
- 致谢89-91
- 论文独创性声明91
- 论文使用授权声’明91
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
|
|
|
|
| 1 |
张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期 |
| 2 |
熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期 |
| 3 |
王波,黄迪明;遗传神经网络在邮件过滤器中的应用[J];电子科技大学学报;2005年04期 |
| 4 |
由丽萍,王素格;汉语动词-动词搭配规则与分布特征[J];计算机工程与应用;2005年23期 |
| 5 |
李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期 |
| 6 |
侯利娟;王国胤;聂能;吴渝;;粗糙集理论中的离散化问题[J];计算机科学;2000年12期 |
| 7 |
代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期 |
| 8 |
周强;;汉语基本块描述体系[J];中文信息学报;2007年03期 |
| 9 |
周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期 |
| 10 |
刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期 |
|
|
|
|
|
| 1 |
徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期 |
| 2 |
乔羽
,杨尔弘;特征选择在人名识别中的应用[J];电脑开发与应用;2005年06期 |
| 3 |
蔡晓白;樊孝忠;;疾病命名短语识别的最大熵方法[J];北京理工大学学报;2006年06期 |
| 4 |
徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期 |
| 5 |
杨寿勋;《统计自然语言处理基础》评介[J];外语教学与研究;2001年04期 |
| 6 |
许菊芳;理解,交流的基础——俞士汶教授谈自然语言处理技术[J];微电脑世界;1999年31期 |
| 7 |
;《统计自然语言处理基础》[J];中文信息学报;2005年03期 |
| 8 |
戴文华,焦翠珍,徐斌;基于统计的自然语言处理模型[J];咸宁学院学报;2005年03期 |
| 9 |
荀恩东;钱揖丽;郭庆;宋柔;;应用二叉树剪枝识别韵律短语边界[J];中文信息学报;2006年03期 |
| 10 |
李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期 |
|