期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《复旦大学》 2005年
加入收藏 获取最新

最大熵方法及其在自然语言处理中的应用

周雅倩  
【摘要】:近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件推动了基于语料库的统计自然语言处理方法成为目前自然语言处理研究领域的一个热点。最大熵方法是一种基于统计的机器学习方法,近10年来,成功应用于自然语言处理的许多领域,并且都接近或达到最佳水平。 所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型:在满足约束的模型中选择熵最大的那个。最大熵方法的优点在于它有简单的哲学原理以及数学推理作为基础,在最大熵模型这个统一的框架下,非常方便的使用多种特征,而且特征之间没有独立性假设,模型表达能力强。它的缺点是训练速度非常慢,耗资源。 在这篇论文中,我们首先介绍最大熵方法的基本原理,数学推导和基本算法。然后分别从训练和执行两个方面提出快速方法:选择性增益计算方法和稀疏特征树方法。选择性增益计算是一种快速的特征选择方法,它能使特征选择的速度提高2到3个数量级。稀疏特征树是一种高效的特征集合表示方法,基于稀疏特征树的特征匹配算法的时间复杂度与特征个数的对数成正比。最后介绍我们实现的最大熵通用工具包,以及把最大熵方法用于自然语言处理的一些实践。
【关键词】:最大熵方法 最大熵模型 自然语言处理 特征选择 特征匹配
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.1
【DOI】:CNKI:CDMD:1.2005.121138
【目录】:
  • 第1章 引言8-13
  • 1.1 自然语言处理现状8-10
  • 1.1.1 统计自然语言处理9-10
  • 1.2 最大熵方法的历史与现状10-12
  • 1.2.1 最大熵方法的历史10
  • 1.2.2 主要研究方向和进展10-12
  • 1.2.3 最大熵方法在自然语言处理中的应用12
  • 1.3 论文组织12-13
  • 第2章 最大熵方法13-30
  • 2.1 最大熵方法概述13-21
  • 2.1.1 一个例子13-14
  • 2.1.2 条件最大熵模型14-15
  • 2.1.3 模型框架15-17
  • 2.1.4 特征17-19
  • 2.1.5 最大熵原则的数学表示19
  • 2.1.6 参数形式19-21
  • 2.1.7 最大似然估计(MLE)21
  • 2.2 模型选择21-25
  • 2.2.1 GIS算法22-24
  • 2.2.2 IIS算法24
  • 2.2.3 SCGIS算法24-25
  • 2.3 特征选择25-29
  • 2.3.1 基于频数阈值的特征选择27-28
  • 2.3.2 增量式特征选择28-29
  • 2.3.2.1 IFS算法28-29
  • 2.3.2.2 选择性增益计算(SGC)算法29
  • 2.4 本章小结29-30
  • 第3章 快速特征选择方法30-47
  • 3.1 特征选择简介30-31
  • 3.2 增量式特征选择31-34
  • 3.2.1 IFS算法32-34
  • 3.3 选择性增益计算的特征选择34-40
  • 3.3.1 假设35
  • 3.3.2 实验观察35-37
  • 3.3.3 SGC算法描述37-39
  • 3.3.4 初始增益的计算39
  • 3.3.5 LA-SGC算法39-40
  • 3.4 实验40-43
  • 3.5 SGC算法和频数阈值方法的组合43-46
  • 3.6 本章小结46
  • 申明46-47
  • 第4章 高效特征匹配方法47-67
  • 4.1 条件最大熵执行系统47-48
  • 4.2 特征的表示48-50
  • 4.3 特征匹配50-51
  • 4.4 特征树51-55
  • 4.4.1 特征树的生成53-54
  • 4.4.2 特征树的查找54-55
  • 4.5 稀疏特征树55-60
  • 4.5.1 稀疏特征树的生成57-59
  • 4.5.2 稀疏特征树的查找59-60
  • 4.6 实验分析60-66
  • 4.6.1 特征匹配时间分析61-62
  • 4.6.2 比较特征匹配时间62-64
  • 4.6.3 特征树生成的时空复杂性分析64-66
  • 4.7 比较与讨论66-67
  • 第5章 应用67-81
  • 5.1 通用最大熵工具67-70
  • 5.1.1 训练样例的表示68-69
  • 5.1.2 训练系统选项69
  • 5.1.3 执行系统69-70
  • 5.2 基于最大熵方法的自然语言处理工具70-74
  • 5.2.1 英文断句71-72
  • 5.2.2 英文词性标注72
  • 5.2.3 基本短语识别72-74
  • 5.2.3.1 中文基本短语识别73-74
  • 5.2.3.2 英文基本短语识别74
  • 5.3 指代消解74-78
  • 5.3.1 属性计算75-76
  • 5.3.2 训练与执行76-77
  • 5.3.3 实验结果77-78
  • 5.4 QA系统置信度评分算法78-80
  • 5.5 本章小结80-81
  • 第6章 总结与展望81-83
  • 6.1 总结81
  • 6.2 展望81-83
  • 参考文献:83-88
  • 攻读博士期间主要工作88-89
  • 致谢89-91
  • 论文独创性声明91
  • 论文使用授权声’明91
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前2条
1 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
2 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
中国博士学位论文全文数据库 前1条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前3条
1 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
2 杨鹏;面向领域自然语言的文本自动分类及其在产品设计中的应用[D];西安电子科技大学;2007年
3 司广涛;基于最大熵模型的垃圾邮件过滤系统研究[D];苏州大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期
2 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
3 王波,黄迪明;遗传神经网络在邮件过滤器中的应用[J];电子科技大学学报;2005年04期
4 由丽萍,王素格;汉语动词-动词搭配规则与分布特征[J];计算机工程与应用;2005年23期
5 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
6 侯利娟;王国胤;聂能;吴渝;;粗糙集理论中的离散化问题[J];计算机科学;2000年12期
7 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
8 周强;;汉语基本块描述体系[J];中文信息学报;2007年03期
9 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
10 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
中国重要会议论文全文数据库 前6条
1 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 时达明;林鸿飞;;基于内容相关度和情感分析的Blogger声誉度研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
6 姚天昉;娄德成;;汉语语句主题语义倾向分析方法的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前6条
1 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 司广涛;基于最大熵模型的垃圾邮件过滤系统研究[D];苏州大学;2006年
4 李洋;基于数据挖掘的邮件分类识别研究[D];重庆大学;2004年
5 赖均;设反垃圾邮件技术的研究和原型实现[D];电子科技大学;2005年
6 亿珍珍;面向产品设计的自然语言理解语义分析研究[D];西安电子科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 李济洪;杨杏丽;王瑞波;张娜;李国臣;;基于规则的中文阅读理解问题回答技术研究[J];中文信息学报;2009年04期
中国博士学位论文全文数据库 前2条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 吕艳辉;基于语料库的现代汉语手部动词研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前2条
1 贾晓东;汉语动宾搭配识别研究[D];大连理工大学;2008年
2 杨鹏;面向领域自然语言的文本自动分类及其在产品设计中的应用[D];西安电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期
2 乔羽 ,杨尔弘;特征选择在人名识别中的应用[J];电脑开发与应用;2005年06期
3 蔡晓白;樊孝忠;;疾病命名短语识别的最大熵方法[J];北京理工大学学报;2006年06期
4 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
5 杨寿勋;《统计自然语言处理基础》评介[J];外语教学与研究;2001年04期
6 许菊芳;理解,交流的基础——俞士汶教授谈自然语言处理技术[J];微电脑世界;1999年31期
7 ;《统计自然语言处理基础》[J];中文信息学报;2005年03期
8 戴文华,焦翠珍,徐斌;基于统计的自然语言处理模型[J];咸宁学院学报;2005年03期
9 荀恩东;钱揖丽;郭庆;宋柔;;应用二叉树剪枝识别韵律短语边界[J];中文信息学报;2006年03期
10 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
中国重要会议论文全文数据库 前10条
1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年
2 刘功申;胡佩华;岳奕;王永成;;偏重摘要及其实现技术[A];第一届学生计算语言学研讨会论文集[C];2002年
3 袁彩霞;王小捷;;基于受限最大熵模型的汉语词性标注的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 马艳;李志舜;;一种水下目标特征选择的方法[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
6 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 马金山;刘挺;李生;;基于n-gram及依存分析的中文自动查错方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
9 姚凯丰;陆文凯;张善文;肖焕钦;李衍达;;基于特征扩展和特征选择的油气预测方法[A];CPS/SEG2004国际地球物理会议论文集[C];2004年
10 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
2 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
3 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
4 周晓娟;TD已过分水岭[N];通信产业报;2008年
5 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
6 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
7 ;开天辟地第一回[N];计算机世界;2002年
8 记者张璋;中文自然语言资源共享开辟新路[N];科学时报;2003年
9 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
10 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
中国博士学位论文全文数据库 前10条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 高宏力;切削加工过程中刀具磨损的智能监测技术研究[D];西南交通大学;2005年
6 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
7 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
8 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
9 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
10 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
2 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
3 许征;电力系统中基于学习理论的特征选择方法研究[D];清华大学;2004年
4 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
5 史瑞耘;论机器翻译的语义分析方法[D];哈尔滨工程大学;2004年
6 李珊;远程教学中自动答疑系统的研究[D];河海大学;2004年
7 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
8 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
9 王大昕;0-1规划及其在特征提取中的应用[D];福州大学;2005年
10 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭