收藏本站
《复旦大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

快速精确的结构化机器学习方法研究

钱线  
【摘要】: 相比于普通的机器学习算法,结构化机器学习可以利用结构信息达到更好的效果,但其时间复杂度要高很多,虽然有快速的近似解法,但精度的损失一定程度上抵消了结构信息带来的好处,因此研究快速精确的结构化机器学习算法成了一个重要的课题。 本文中,我们对结构化机器学习中的推断算法以及特征抽取两个重要环节进行改进。首先,我们针对序列标注问题,基于许多实际应用中高阶特征信息的稀疏性特点,提出了稀疏高阶的条件随机场模型和一种新的快速精确的推断算法,它可以同时处理局部特征和稀疏的高阶特征。由于稀疏性的存在,这种新的推断算法是十分高效的。在手写体识别任务上,我们采用词缀特征作为高阶特征,稀疏高阶的条件随机场模型达到了所有公开的实验结果中最高的精度。在中文组织机构名识别任务上,我们将人工抽取的规则转化为高阶特征,并取得了微软亚洲研究院数据集上第二名的成绩。这两个实验表明,在特征集相同的情况下,稀疏高阶的条件随机场模型明显优于其他的方法。 其次,我们提出了一种新的特征字符串索引结构以加速特征抽取,从而缩短解码时间。现在许多结构化机器学习方法采用模板生成数以百万千万的特征。复杂的模板可以产生大量复杂的特征,从而提高了精度,但却需要更多特征抽取的时间,大大影响了解码速度。为此,我们提出了两维的Trie结构,该结构可以利用模板之间的相互关系提高特征抽取的速度:一个模板生成的特征字符串是它的扩展模板生成的特征字符串的前缀,因此前一个特征字符串的索引号可以用来检索后一个特征字符串,从而节约了时间。我们将这种新的数据结构用在基于图模型的依存句法分析的任务上。在中文宾州树库上的实验表明,两维Trie的特征抽取速度是传统Trie的5倍,整个句法分析的解码速度是后者的4.3倍。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP181

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 周雅倩;黄萱菁;吴立德;;一种特征匹配方法:稀疏特征树[J];软件学报;2006年05期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 李琪;郭敏;;基于字典树的基数排序算法[J];硅谷;2011年14期
3 杨来;何清;许立达;史忠植;;Dynamic Hash TRIE算法的研究与分析[J];广西师范大学学报(自然科学版);2008年01期
4 王文剑;王亚贝;;基于结构化支持向量机的中文句法分析[J];山西大学学报(自然科学版);2011年01期
5 戴耿毅;佘静涛;;基于双数组Trie树算法的字典改进和实现[J];软件导刊;2012年07期
6 魏博诚;王爱平;沙先军;王永;;一种消除中文分词中交集型歧义的方法[J];计算机技术与发展;2011年05期
7 吴龙;吴健;任红民;;基于双数组Trie树的嵌入式TTS系统研究[J];现代机械;2010年04期
8 廖敏;褚颖娜;宋继华;;双数组Trie树索引的可操作性研究[J];计算机系统应用;2009年10期
9 褚颖娜;廖敏;宋继华;;一种基于统计的分词标注一体化方法[J];计算机系统应用;2009年12期
10 张硕果;汪成亮;;结合CRFs的词典分词法[J];计算机系统应用;2010年11期
中国硕士学位论文全文数据库 前10条
1 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
2 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
5 齐保元;知识文档的语义检索方法研究与实现[D];首都师范大学;2011年
6 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
7 蒋才智;中文自动分词及人名识别技术研究[D];合肥工业大学;2011年
8 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
9 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
10 泰冬雪;基于Hadoop的海量小文件处理方法的研究[D];辽宁大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 路志英,林孔元,郭祺,段广玉;中文切分词典的最大匹配索引法[J];天津大学学报;1999年05期
【相似文献】
中国期刊全文数据库 前10条
1 张伟;洪声贵;;学习式搜索:一种新的搜索策略[J];辽宁大学学报(自然科学版);1992年04期
2 黄李伟;孔芳;朱巧明;周国栋;;基于树核函数的中文零指代项识别研究[J];计算机科学;2011年01期
3 李静;;基于机器学习的自适应个性化数字图书馆模型研究[J];情报科学;2009年08期
4 章成敏;许鑫;章成志;;条件随机场标引模型的性能影响因素分析[J];现代图书情报技术;2008年06期
5 朱明;李香;郑烇;;基于多学习策略的网页信息抽取方法[J];计算机应用与软件;2008年12期
6 温雯;郝志峰;邵壮丰;;面向图像数据集的高斯过程分类[J];计算机工程与应用;2011年11期
7 洪国彬;;模糊模式识别的若干问题研究[J];华侨大学学报(自然科学版);1993年01期
8 王斌;;从信息检索到搜索引擎[J];术语标准化与信息技术;2009年04期
9 钱国良,舒文豪,洪勇,叶风,郭茂祖;基于机器学习的手写汉字特征选择[J];哈尔滨工业大学学报;1998年01期
10 乔维;孙茂松;;基于M~3N的中文分词与命名实体识别一体化[J];清华大学学报(自然科学版);2010年05期
中国重要会议论文全文数据库 前10条
1 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
4 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
7 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
8 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
9 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 东方证券 黄栋;可分离转债 低成本结构化理财产品[N];常州日报;2007年
2 东方证券 黄栋;可分离转债:低成本的结构化产品[N];证券时报;2007年
3 本报记者 李锐;华宝信托结构化证券投资 信托产品向高端客户倾斜[N];上海证券报;2007年
4 国海证券 孙稳存;今年一季度CPI将保持高位[N];证券时报;2008年
5 张媛源;结构化融资带给银行四大利好[N];中华工商时报;2007年
6 徐国杰;结构化牛市仍是今年主要特征[N];中国证券报;2007年
7 杨磊;结构化分级打开基金产品创新空间[N];证券时报;2007年
8 本报记者  王小明;金融期交所秘密筹备 结构化理财模式启幕[N];21世纪经济报道;2006年
9 标准普尔中国区总裁 扈企平 博士;推进结构化融资一举数得[N];中国证券报;2006年
10 王睿;衍生产品助你A股获利[N];上海金融报;2007年
中国博士学位论文全文数据库 前10条
1 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
2 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
3 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
4 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
5 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
10 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 虞欢欢;基于机器学习的蛋白质相互作用关系抽取的研究[D];苏州大学;2010年
2 刘慧;基于表格结构的Web信息提取技术研究[D];燕山大学;2009年
3 张少平;基于结构化自然语言的算法规约研究[D];江西师范大学;2003年
4 张卓;结构化电子病历的数据检索[D];华中科技大学;2005年
5 王亚贝;结构化支持向量机学习方法及应用研究[D];山西大学;2011年
6 王春山;数据挖掘技术在方剂配伍领域的应用研究[D];浙江大学;2006年
7 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
8 包彤;结构化分析方法与面向对象分析方法集成的研究[D];北京工业大学;2001年
9 岳新利;桃曲坡管理局灌溉信息系统的开发与研究[D];西安理工大学;2003年
10 陈天华;基于XML的结构化电子病历检索的研究[D];上海交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026