收藏本站
《浙江大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模机器学习理论研究与应用

张利军  
【摘要】:随着信息技术的飞速发展尤其是互联网的广泛应用,各种类型的数据资源与日俱增。如何从浩瀚的“数据海洋”中发现有用的知识成为亟待解决的公共难题,引发了学术界和工业界的广泛关注。为处理海量数据,本文对主动学习、特征选择、联合聚类、在线学习等大规模机器学习技术进行了研究和探索,创造性地提出了一系列机器学习算法,并成功应用于人脸识别、图像分类、生物信息学等领域。主要工作包括: 为了减少数据标注的代价,本文提出了一种基于局部线性重构的主动学习算法,能够根据数据空间的局部流形结构选择最具代表性的样本。我们假设每个样本及其近邻组成了一个局部线性块,因此每个样本都可以通过它的近邻线性重构。给定各个样本的局部重构系数和一些样本的坐标,本文提出了局部线性重构算法来重构整个数据集。最具代表性的样本被定义为那些能够最准确地重构整个数据集的样本。由于数据重构算法满足局部线性的约束,这样选择的样本能够保持数据空间的局部流形结构。 为了降低数据的维度,本文提出了一种无监督的判别性特征选择算法,旨在找出最能保持聚类结构的特征。由于缺乏标注数据的指导,本文依据判别性聚类的效果衡量特征的质量。具体而言,我们采用一个线性函数来建模特征选择后的数据矩阵和聚类指示矩阵之间的关系。可以证明,该函数的拟合误差依赖于选择的特征和聚类结果。将拟合误差作为目标函数,判别性特征选择算法要求最优的特征能够最小化拟合误差。 为了发现不同类型数据之间的关联,本文提出了一种局部判别联合聚类算法,同时对样本和特征进行聚类。为了保持样本和特征之间的关系,局部判别联合聚类算法建立一个包含样本和特征的二分图,要求聚类的结果关于图尽可能地平滑。通过应用局部线性回归模型,局部判别联合聚类能够发现样本空间和特征空间的内在判别结构。为了保持样本之间、特征之间的内部关系,我们寻找能够最小化局部线性回归拟合误差的聚类。这样,局部判别联合聚类能够将相关的样本和特征聚在同一类,同时能够反映数据空间和样本空间的局部判别结构。 为了降低核学习的计算复杂度,本文将在线学习应用到核逻辑回归模型。首先,我们根据随机梯度下降法得到一种非保守的在线学习算法。该算法在每一个训练样本到来时都会更新当前的核分类器,导致模型训练和测试的复杂度不断增加。为了生成稀疏的核分类器,本文进一步提出了两种保守在线学习算法来优化核逻辑回归。在每一个训练样本到来时,我们引入一个伯努利随机变量来决定是否更新当前模型。通过设定合适的概率分布,该算法在遇到难以区分的样本时更新的概率较大,反之更新的概率则较小。理论分析表明,这样得到的稀疏核分类器的泛化能力与稠密分类器的泛化能力类似。 为了高效地求解相关的优化问题,本文应用了贪心方法、谱分析、凸松弛、随机梯度下降等优化技术来降低计算复杂度,提高算法的可扩展性。在实验中,本文将所提算法分别应用到人脸识别、图像分类、图像码字选择、文本和基因数据联合聚类、大规模在线分类等实际问题中,与其他算法进行了详细地对比,验证了算法的有效性。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP181

【参考文献】
中国期刊全文数据库 前1条
1 ;美国研制成功“大狗”四足机器人[J];流体传动与控制;2009年03期
中国硕士学位论文全文数据库 前3条
1 何元;基于云计算的海量数据挖掘分类算法研究[D];电子科技大学;2011年
2 钱彦江;大规模数据聚类技术研究与实现[D];电子科技大学;2009年
3 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 钱广荣;;道德悖论现象之“恶”及其认识论意义[J];合肥师范学院学报;2011年01期
2 谭黎明;;汉代农作物的耕种技术探讨[J];安徽农业科学;2010年04期
3 蔡保兴;;论荀子“礼”与霍布斯“约”思想之异同[J];安徽工业大学学报(社会科学版);2010年05期
4 刘刚;宋玉大小言赋寓意探微[J];鞍山师范学院学报;2005年03期
5 王善超;论亚里士多德关于人的本质的三个论断[J];北京大学学报(哲学社会科学版);2000年01期
6 袁行霈;;《新编新注十三经》刍议[J];北京大学学报(哲学社会科学版);2009年02期
7 刘宁;;属辞比事:判例法与《春秋》义例学[J];北京大学学报(哲学社会科学版);2009年02期
8 刘宁;;“论”体文与中国思想的阐述形式[J];北京大学学报(哲学社会科学版);2010年01期
9 陈学举;试论先秦诸子学说的共性特征[J];北京工业大学学报(社会科学版);2001年03期
10 许嘉乐;;试论《孙子兵法》的核心思想[J];北京化工大学学报(社会科学版);2010年02期
中国重要会议论文全文数据库 前5条
1 范麗梅;;上博楚简《孔子诗论》与《子羔》篇性质小议[A];传统中国研究集刊(第七辑)[C];2009年
2 侯爱民;曲超;谭伟;;状态空间搜索技术在手机游戏中的应用[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
3 李照顺;柳强;许锦洲;;基于AI技术的CGF行为建模方法综述[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
4 方良;李照顺;宋祥斌;;空中拦截机CGF系统智能决策模型的研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
5 崔凯云;;基于超实时仿真的航天飞控辅助决策[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 胡雪梅;科学人才观的理论内涵与实践应用研究[D];江西师范大学;2010年
2 李国娟;儒学与秦汉意识形态的建立[D];华东师范大学;2011年
3 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
4 常昭;六朝琅邪颜氏家族文化与文学研究[D];山东师范大学;2011年
5 孙赫;论春秋战国时期秦国人才引进[D];吉林大学;2011年
6 王俏华;论我国榜样教育中的道德问题[D];华东师范大学;2011年
7 顾炯;儒家视域中的修身之道[D];华东师范大学;2011年
8 季庆阳;唐代孝文化研究[D];陕西师范大学;2011年
9 何悦玲;中国古代小说中的“史传”传统及其历史变迁[D];陕西师范大学;2011年
10 朱新林;《淮南子》与先秦诸子承传考论[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 鲁京京;古史辨派对《史记》中先秦史料评判之研究[D];哈尔滨师范大学;2010年
2 韩冬振;远程诊断中心的设计与实现[D];郑州大学;2010年
3 贾清宇;孟子引《书》论《书》考论[D];辽宁师范大学;2010年
4 张野;先秦休闲文化研究[D];辽宁师范大学;2010年
5 吴志龙;改进的模糊遗传算法在医学中的应用和研究[D];天津理工大学;2010年
6 赵啟;南宁市体育养生行业现状调查和发展对策研究[D];广西民族大学;2010年
7 张军宝;基于域描述语言的Java规则引擎实现方法[D];华东理工大学;2011年
8 张瑞珏;知识地图构建研究[D];昆明理工大学;2009年
9 赵琪;基于DIY理念下的绿色服装设计研究[D];中原工学院;2011年
10 周民;海量web舆情挖掘算法研究[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前9条
1 陶凤梅,杨启昌,胡锡衡;抽样调查中变量选择(英文)[J];鞍山师范学院学报;2002年03期
2 黄建军,甘仞初;管理信息系统数据资源配置的研究与应用[J];北京理工大学学报;1999年04期
3 王鹏,杨士强,刘志强;信息论联合聚类算法及其在视频镜头聚类中的应用[J];计算机学报;2005年10期
4 韩松来,张辉,周华平;基于关联度函数的决策树分类算法[J];计算机应用;2005年11期
5 陈莉,焦李成;基于自适应聚类的数据预处理算法I[J];计算机应用与软件;2005年03期
6 戴元顺;;云计算技术简述[J];信息通信技术;2010年02期
7 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
8 肖汉;;基于可重用构件的软件开发模式研究[J];微电子学与计算机;2007年01期
9 孙九林;科学数据资源与共享[J];中国基础科学;2003年01期
【相似文献】
中国期刊全文数据库 前10条
1 宋恒,张杨;基于模式识别技术的股票市场技术分析研究[J];计算机仿真;2004年07期
2 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
3 苏冬平,陈文明,冯建生,袁震东;聚类调优——一种知识获取的新途径[J];华东师范大学学报(自然科学版);2001年02期
4 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
5 翟立波;数据挖掘与知识发现[J];潍坊学院学报;2005年02期
6 刘勇国;陈克非;;基于混合遗传聚类的入侵检测算法[J];计算机工程;2006年02期
7 杨永;王莉利;;基于K-means聚类和遗传算法的少数类样本采样方法研究[J];科学技术与工程;2010年10期
8 蔡江辉,张继福;基于聚类的离群数据挖掘及应用[J];太原重型机械学院学报;2004年04期
9 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期
10 王喜玮;王煦法;;一种利用作者兴趣构建博客圈的方法[J];小型微型计算机系统;2009年12期
中国重要会议论文全文数据库 前10条
1 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
2 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
3 朱强生;田英;周延泉;何华灿;;银行业中的客户数据挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
4 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
6 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
7 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
8 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
4 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
5 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
6 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
7 记者 何边;网络化激活人工智能[N];计算机世界;2001年
8 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
9 符信;30个指标评价社会发展水平[N];南方日报;2005年
10 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
中国博士学位论文全文数据库 前10条
1 张利军;大规模机器学习理论研究与应用[D];浙江大学;2012年
2 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年
3 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
4 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
5 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
6 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
7 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
8 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
9 苏洪全;基于机器学习的生物基因剪切位点识别[D];大连海事大学;2011年
10 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 赵忠华;基于机器学习的入侵检测研究[D];山东大学;2009年
2 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
3 李戈;基于数据仓库的聚类数据挖掘工具的研究[D];青岛大学;2002年
4 杨毅;数据挖掘在区域经济分析中的应用模型研究[D];武汉大学;2004年
5 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
6 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
7 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
8 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
9 孙会岭;移动环境中基于聚类的个性化推荐算法研究[D];燕山大学;2011年
10 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026