收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

线性链条件随机场训练算法优化的研究

陈天缘  
【摘要】: 由John Lafferty等人在2001年提出的条件随机域(conditional random fields,CRF)模型是机器学习领域的一个重要里程碑,它综合了以往机器学习中几种模型的优点,包括隐马尔可夫模型,最大熵隐马模型,同时也避免了MEMM中标记偏见的问题。因为它的这些优点,CRF被广泛应用于机器学习领域,特别是自然语言处理中,包括命名实体提取、词性标注等。 在有着广泛的应用和众多的优点的同时,CRF也存在着不足之处。其中一个显著的不足就是训练一个CRF模型需要耗费大量的计算资源。首先,CRF的训练需要耗费大量的内存资源,在进行大数据量的训练的时候,所使用的内存常常会超出微机的物理内存,使得操作系统使用磁盘作为交换空间,大量的I/O操作会严重影响训练效率;其次,CRF训练的计算本身也需要耗费大量的计算时间,数据量大的训练通常需要耗费数天甚至数周才能完成。这不仅仅是因为算法本身的复杂度,还跟目前的算法没能有效利用现代计算机硬件特性有关。 本研究的目的是,通过优化CRF的训练算法,使得算法可以有效利用现代CPU的特性,并使内存-磁盘间的数据交换操作得到优化,从而提高CRF模型的训练效率。同以往的CRF相关研究不同,本研究从一个计算机架构的角度研究了提高CRF训练效率的方法。就我们所知,目前通过优化算法来有效利用现代计算机特性来的研究也较多,但针对CRF算法的目前还尚未出现。由于CRF被广泛使用在机器学习领域,本研究可以让使用CRF的研究者和开发人员在测试、应用算法模型时节省大量的时间和精力。 本文从以下三个方面解决CRF训练效率低下的问题: 1.通过优化算法,降低CPU Cache失效率。设计一个适合Cache预取的算法,可以通过使用现代CPU的软件预取(software prefetching)指令,降低CPU Cache的失效率,从而减少cache失效带来的性能损失; 2.通过优化算法,使得算法中计算的并行性得到提高。设计算法充分利用CPU特性,可以提高CRF训练时计算的并行性; 3.设计基于外存的CRF训练算法。当内存使用很大时,可以让训练程序自主管理磁盘操作,避免让操作系统来管理,从而减少了大量的数据交换操作,大幅提高了效率。 本文实验结果显示,改进的CRF训练算法确实有效提高了训练效率,特别是对于规模越大的任务,效果的提升就越明显。表明本文的算法确实适合大规模的训练任务。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程兵,王莹,郑南宁,贾新春,袁泽剑,李青,卞正中;基于Markov随机场和FRAME模型的无监督图像分割[J];中国科学E辑;2004年04期
2 王建栋,冯前进,陈武凡;基于模糊增强的医学超声图像分割[J];中国医学物理学杂志;2005年02期
3 王荣霞,刘春原,杨小明;城市三维地基信息咨询系统的设计与开发[J];河北工业大学学报;2002年01期
4 胡净;胡洁;叶盛;;基于Markov随机场和Bayesian理论的脑内磁源重建[J];计算机科学;2003年09期
5 匡锦瑜,刘来福,朱俊秀,郭宇春;马尔可夫随机场与离散多值玻尔兹曼机[J];电子学报;1994年10期
6 李华北,赵杰文;基于Markov随机场的猪肉糜微结构图像模拟[J];农业机械学报;2001年02期
7 冯志林,尹建伟,陈刚,董金祥;彩色图像的马尔可夫随机场恢复算法[J];浙江大学学报(工学版);2004年09期
8 黄英,丁晓青,王生进;基于Markov随机场的三维物体识别算法[J];清华大学学报(自然科学版);2005年01期
9 曹永锋,孙洪,杨文,徐新;基于MPM准则的无监督SAR图像分割[J];武汉大学学报(信息科学版);2004年09期
10 汪涛,庄新华,邢小良;线元马尔可夫随机场模型和重建[J];电子学报;1992年07期
11 匡锦瑜,姚小燕;一种低信噪比图像的模拟退火恢复算法[J];计算机学报;1991年07期
12 汪涛,邢小良,庄新华;一种新的边缘检测算法[J];电子学报;1992年01期
13 匡锦瑜,王颖;多尺度边缘检测与图像分割的马尔可夫随机场模型[J];北京师范大学学报(自然科学版);1996年03期
14 刘一舟,罗斌,罗宏建;基于Matlab平台的含噪图像恢复[J];现代电子技术;2004年21期
15 ;图象的随机场模拟、估计和分形的研究[J];北京理工大学学报;1990年02期
16 徐全智;关于平面Clipping随机场的若干性质[J];电子科技大学学报;1990年02期
17 邱振戈,钱曾波,马东洋,黄野;基于Markov随机场的彩色图像区域分析方法[J];测绘学院学报;1999年02期
18 王书舟;伞冶;;支持向量机的训练算法综述[J];智能系统学报;2008年06期
19 刘建昌;基于神经网络的自适应厚度控制[J];钢铁;1999年11期
20 王晓哲,顾树生,吴成东,高明;一种新的加权目标函数下的神经网络训练方法[J];东北大学学报(自然科学版);2001年06期
中国重要会议论文全文数据库 前10条
1 游世辉;李雪芹;陈子娟;万小平;;结构可靠性分析的随机无网格法与蚂蚁算法[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年
2 邵久书;;量子耗散动力学随机场方法[A];第九届全国化学动力学会议论文摘要集[C];2005年
3 金郭赟;朱秀昌;;多幅连续CCD图像间关系模型的研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
4 杨绿峰;刘萍;刘颖;唐冲;;大变异随机结构数值分析理论及其比较研究[A];随机振动理论与应用新进展——第六届全国随机振动理论与应用学术会议论文摘要集[C];2008年
5 刘春华;秦权;;虎门大桥静力问题的随机有限元分析[A];中国土木工程学会桥梁及结构工程学会第十二届年会论文集(下册)[C];1996年
6 范么清;楼梦麟;;非线性单自由度复合随机振动系统的反应特性[A];第16届全国结构工程学术会议论文集(第Ⅲ册)[C];2007年
7 郭怀志;陈祖坪;;论拱坝系统可靠度分析方法[A];水力发电工程与水工建筑物学术论文集[C];2000年
8 吴传清;陆达远;常晓林;赖国伟;;岩体结构面宏观抗剪强度的随机场分析[A];岩石力学新进展与西部开发中的岩土工程问题——中国岩石力学与工程学会第七次学术大会论文集[C];2002年
9 史勇红;戚飞虎;;基于弱膜模型的自适应立体脑图像分割方法[A];第二届全国信息获取与处理学术会议论文集[C];2004年
10 黄斌;高洪波;;分层土中单桩水平动力阻抗的统计特性[A];第十三届全国结构工程学术会议论文集(第Ⅱ册)[C];2004年
中国博士学位论文全文数据库 前10条
1 张晓峰;基于条件随机场的目标提取[D];华东师范大学;2012年
2 刘春原;基于GIS系统的岩土参数随机场特性研究[D];天津大学;2003年
3 杨卫国;关于强极限定理的若干研究及应用[D];上海交通大学;2007年
4 陈振龙;独立增量随机场的分形性质[D];西安电子科技大学;2004年
5 苏项庭;基于粘结裂缝模型的非均匀准脆性材料断裂模拟研究[D];浙江大学;2011年
6 莫文辉;线性振动的随机有限元研究[D];华中科技大学;2009年
7 吴长富;杭州地区土性概率特征及单桩承载力可靠度研究[D];浙江大学;2005年
8 赵红亮;基于集合卡尔曼滤波数据同化方法的岩土力学参数时空变异性研究[D];中国科学院研究生院(武汉岩土力学研究所);2006年
9 吕学斌;Gel'fand三元组上的Lévy白噪声和分数Lévy噪声[D];华中科技大学;2009年
10 王峰;美尔音级轮廓特征在音乐和弦识别算法中的应用研究[D];太原理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈天缘;线性链条件随机场训练算法优化的研究[D];复旦大学;2010年
2 张华;算子标度随机场[D];暨南大学;2010年
3 林泽鑫;基于条件随机场的网络短评论挖掘系统研究与实现[D];华南理工大学;2012年
4 王立文;基于深度学习与条件随机场的多标记学习方法的中医问诊建模研究[D];华东理工大学;2013年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 郭永生;基于条件随机场的汉语短语识别研究[D];东北大学;2008年
7 李阳;基于条件随机场的RNA二级结构预测算法[D];北京理工大学;2011年
8 朱莉;基于马尔可夫随机场的运动目标分割算法研究[D];苏州大学;2004年
9 侯春艳;随机场的两类极限结果[D];暨南大学;2012年
10 杨文锋;基于条件随机场的中文商品查询语义标注问题研究[D];中山大学;2012年
中国重要报纸全文数据库 前8条
1 谢国宁 谢敬爱;天津临空产业等待起飞[N];中国现代企业报;2006年
2 ;杨元元还在飞的民航局长[N];市场报;2006年
3 本报记者 刘学习;认准语音识别的“内核”[N];计算机世界;2002年
4 炎黄新星公司供稿;炎黄之声SinoSonic[N];计算机世界;2002年
5 刘佳;视觉传达设计师[N];中国包装报;2004年
6 IBM中国研究中心 秦勇;IBM电话语音技术及其应用(一)[N];光明日报;2000年
7 梁展红 郭胜民;全球药物创新的六大模式[N];中国医药报;2002年
8 梁展红 郭胜民;六大模式引领全球药物创新[N];中国高新技术产业导报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978