矩阵的低秩近似算法及其应用
【摘要】:随着计算机的不断发展和互联网的快速普及,人们收集数据以及存储数据的能力都大大提高。在过去十年里,无论在科学研究还是在社会生活的各个领域都积累了大量的数据。如何对这些数据进行分析以发掘数据蕴含的有用信息以及如何有效管理这些数据已经成为计算机科学和应用数学领域共同关心的中心话题。许多的机器学习(如核学习,度量学习)和数据管理问题(数据差分隐私)都可以以矩阵的形式表达,然而在实际应用中往往涉及到百万甚至千万条记录或样本,基于矩阵的数据分析技术的空间和时间复杂度上会随着问题的规模呈二次方增长,这使得很多大规模的应用马上变得不可行。因此近似一个目标矩阵而令数据分析技术更精确更适合于大规模的实际应用已成为当今机器学习和数据管理领域十分热门的话题。受到支持向量机、压缩感知和非负矩阵分解等稀疏和低秩等技术的启发,人们开发了一系列基于矩阵分析技术的机器学习和数据管理算法。
本论文主要讨论了矩阵的低秩近似算法以及在机器学习和数据管理中的应用。总的来说,本博士论文主要有三点贡献。
1)提出了一个快速的算法来解决低秩二次半正定优化问题。低秩矩阵近似算法在大规模机器学习上是一个非常有效的模型,因为它不但减低内存和运行时间的复杂度,而且在保持着高准确率的同时提供了一种很自然的正则参数的方法。在本论文中,我们讨论了一类特殊的非凸二次矩阵半正定优化问题。虽然问题是非凸的,我们研究了这些问题的一些特殊结构,从而设计了一个快速收敛的局部最优的算法。而且,我们提出的算法运行效率高,在一系列机器学习中重要的具体问题上都表现了很好的可拓展性,这些问题包括稀疏特征值,距离度量学习以及核学习问题。大量在UCI数据集上的实验结果表明我们提出的算法有着运算速度快和测试精度高的优点。
2)提出了一个双边贪心策略的低秩半正定优化算法。很多的机器学习任务(如度量学习和流型学习)都可以归约为凸半正定规划问题。为了满足很多大规模的机器学习任务需求,如何设计一个鲁棒的、可扩展的、适合大规模的半正定规划问题是很多学者一直在探讨的问题。在本文中,我们提出了一种新颖的双边贪心优化(BILateral Greedy Optimization, BILGO)算法求解一个大规模数据集上通用的半正定规划问题。和以往的方法不同,BILGO在每一步优化迭代中采用了一种双边的搜索策略,它通过使用上一步的解和一个秩1矩阵的线性组合来决定当前的半正定的解,而这个秩为1的矩阵可以通过计算当前迭代的下降方向的主特征值向量来快速获得。通过优化双边组合的系数,BILGO总是能降低评价函数,一直到KKT最优条件满足为止,因此算法能保证收敛到全局最优解。事实上,对于一个-精度近似的解,BILGO收敛的所需迭代次数为O(∈~(-1))。我们提出的算法因此可以成功地结合当前传统的秩1更新的算法和梯度下降的算法的效率。最后一点,也是本论文的主线,就是BILGO通过简单的修改就可以处理低秩约束的半正定优化问题,低秩算法因此可以改进我们原来的贪心算法,因而使得我们的优化更加鲁棒和快速。我们的在大规模的实验分析表明BILGO在一系列问题上都取得了较好的效果。
3)提出了一个在差分隐私框架约束下的快速准确的批线性查询处理优化算法。差分隐私是一种很有前景的用于对敏感数据统计查询的隐私保护处理模型。该模型通过在每个查询的结果上注入随机噪声而使得攻击者根据加噪音后的结果从理论上难以推断任何个人记录是否存在在统计查询中。差分隐私化的查询处理的主要目标是最大化的查询结果的准确性,同时满足所承诺的差分隐私度。以往的研究,特别是李等人建议用适当的策略矩阵,作为一个整体处理一批相关查询的方案比单独地处理这些查询精度高得多。然而,就我们所知,对于任意的查询集,目前还没有有效的可以找到一个很好的策略矩阵的优化算法。现有的方法要么所产生的策略矩阵质量差(往往比最直接的方法差),要么就是即使对于中等大小的维度数据都需要非常昂贵的计算开销。基于这样一个出发点,我们提出了矩阵的低秩机制来解决差分隐私下的线性查询批处理优化问题。该模型是差分隐私下第一个实用的基于低秩近似算法的线性查询优化模型。再者,我们证明了低秩机制所取得的精度是差分隐私下的任何机制的理论下界相近。大量真实数据下的实验表明,我们提出的低秩机制性能的效果都大大优于现存最具代表性的方法。本学位论文采用排版系统LATEX编写。
|
|
|
|
1 |
宋海洲;TSP问题的一种快速近似算法及应用[J];华侨大学学报(自然科学版);2005年03期 |
2 |
杨宪泽,雷开彬,吴守宪,张上游,宁爱华;一种句型转换和近似机器翻译方法及算法[J];计算机工程与科学;2005年11期 |
3 |
陈刚;徐青川;;机械手抓取排序问题(MSP)的最小权匹配算法[J];西安科技大学学报;2005年04期 |
4 |
樊广佺;王小牛;杨炳儒;;平面点集凸壳的一种近似算法[J];计算机工程与应用;2007年12期 |
5 |
王继强;李国君;;基于设施选址的Steiner问题的算法[J];计算机科学;2007年09期 |
6 |
郭文兰;张彤;;矩形件排样优化的双向双原算法[J];哈尔滨理工大学学报;2008年02期 |
7 |
许金星;吴素萍;;旅行售货员问题的图论近似算法[J];计算机工程与应用;2009年32期 |
8 |
何晓琼;陈冲;李荣珩;;工厂地址集中的k-种产品选址问题的近似算法[J];计算机工程与应用;2010年08期 |
9 |
王晨;杨曙;;A型变尺寸装箱问题之模型及算法研究[J];计算技术与自动化;2010年03期 |
10 |
何勇;互联网通信中的信息选取与分布问题的建模与求解[J];计算机学报;2001年06期 |
11 |
高磊,张德运,王晓东,安智平;改进的基于拓扑分析的Steiner树近似算法[J];西安交通大学学报;2003年10期 |
12 |
刘军,罗意平,刘德福,王平安;一种改进的矩形件优化排样近似算法[J];小型微型计算机系统;2003年10期 |
13 |
徐青川,张何之;机械手抓取排序问题(MSP)研究[J];西安工程科技学院学报;2003年04期 |
14 |
聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期 |
15 |
刘湘辉;殷建平;卢锡城;蔡志平;赵建民;;基于原始对偶方法求解网络流量监测集算法[J];软件学报;2006年04期 |
16 |
王继强;李国君;;基于设施选址问题的费用分配问题的近似算法[J];计算机工程与应用;2006年13期 |
17 |
宋连超;朱建良;张彤;;矩形件排样优化的最小余料删除法[J];哈尔滨理工大学学报;2006年05期 |
18 |
赵建英;;0-1背包问题的非线性降维近似算法[J];内蒙古师范大学学报(自然科学汉文版);2007年01期 |
19 |
陈静;胥小庆;唐恒永;;求解区域网络问题的近似算法[J];沈阳航空工业学院学报;2007年02期 |
20 |
李镇坚;朱洪;;一种点边带权最小生成树的近似算法[J];计算机应用与软件;2008年01期 |
|
|
|
|
|
1 |
PALADIN;近似算法[N];电脑报;2003年 |
2 |
;编程沙龙[N];电脑报;2003年 |
|