复杂网络中的链路预测研究
【摘要】:复杂网络中的链路预测研究的核心任务是预测各类真实网络中连边的存在性。链路预测在现实生活中有着广泛的应用场景。例如,在生物医学领域,链路预测可用于推断分子之间的交互关系,降低生物医学的实验成本;在社会经济领域,链路预测可为用户推荐好友和商品等,帮助用户快速获取相关信息且助力平台提升利润;在数据挖掘技术相关领域,链路预测可辅助网络数据矫正及补全,也可作为社团发现、知识图谱构建、关键节点挖掘等科学问题的关键技术手段提升数据挖掘任务的效果。除广泛的应用价值以外,链路预测也可在理论层面作为“试金石”对现有网络生成机制的可靠性进行验证。随着数据获取和存储技术的提升,针对大量真实网络的分析研究成为可能,这也为复杂网络上的链路预测研究带来了新的机遇和挑战:首先,旧有的链路预测算法基于少量网络设计,这些算法是否足以解决不同领域网络上的链路预测问题?广为大家认可的共同邻居(或三角闭包、聚集性等)机制是否仍能解释大部分网络的连边生成过程?其次,不同网络具有不同的拓扑结构,这导致链路预测算法预测性能并不稳定,在特定网络上表现好的算法在其他网络上表现较差。最后,在数据稀疏性挑战下以及数据之间的关联性带来的机遇下,人们构造了越来越复杂的网络,而旧有的基于简单网络的链路预测算法难以直接迁移到复杂类型的网络中,如何挖掘更复杂类型的网络信息以提升算法的预测性能也非常具有挑战。针对这些问题,本文将从复杂网络上链路预测的局限性、稳定性、准确性、复杂性四个层面开展研究,主要的内容和创新点如下:(1)针对现有链路预测算法的潜在局限性,研究了二阶框架下的链路预测算法在海量网络中的适用性。基于线性假设提出了基于线性优化的链路预测算法(Linear Optimization,简称LO)。与基准算法相比,LO准确性高且可适用于多种类型的网络,如加权网络和有向网络。针对LO解析解进行了深入分析,发现经典二阶路径框架下相似性算法(或指标)的预测性能差于基于三阶路径框架下的相似性算法(或指标)。进而,本文对比了基于二阶框架和三阶框架下的四组算法。结果表明两个框架下的算法在海量网络中平分秋色,且三阶路径框架下的算法更适合度异配性、网络密度和平均聚集系数都较低的网络。本文还发现基于局部社团连接范式的算法整体表现更好。本研究有助于加深人们对网络中节点间局部连接模式的认识。(2)针对现有链路预测算法的不稳定性,结合协同过滤思想和相似性理论提出了表现稳定的链路预测框架。相似性理论指出相似的节点之间更倾向于连接彼此,协同过滤思想则认为相似的节点倾向于连接相同或相似的节点。基于两者的不同,本文提出了基于协同过滤的增强框架(Collaborative Filtering,简称CF)和自含协同过滤增强框架(Self-included Collaborative Filtering,简称SCF)。大量实验表明,基于相似性的链路预测算法的预测效果在CF框架下可获得提升,而SCF框架可进一步提升CF框架下算法的预测性能。这两个框架在不同稀疏性的数据集中表现都稳定地优于原始算法。此外,基于SCF框架的增强算法与精心设计、考虑了全局信息的链路预测算法相比,预测性能上富有竞争力且在时间复杂度上占有优势。本研究为基于相似性的链路预测算法提供了一个简单、可解释强、预测性能稳定高效的框架。(3)针对设计准确性更高的链路预测算法的需求,提出了两个基于特征向量贡献分配的链路预测算法。本文指出CN相似性可由目标网络对应的邻接矩阵的特征向量线性表示,每个特征向量对CN相似性的贡献正比于其相应特征值的平方。然而,大量真实网络的最大特特征值和第二大特征值之间存在较大差距,这导致CN相似性由最大特征向量主导,其他特征向量的信息被弱化。基于此,本文分别提出了控制特征向量贡献分配的无参算法(Controlling the Leading Eigenvector,简称CLE)和含参算法CLE*。与原始的CN指标相比,CLE和CLE*显著提升了其预测准确性。此外,CLE和CLE*在预测性能上整体超越了对应的无参基准算法和含参基准算法,且其时间复杂度比考虑了全局信息的算法低。本研究除提供了准确性更高的链路预测算法,也为从数学角度理解CN指标提供了新视角。(4)针对复杂类型的网络上的链路预测问题,提出了耦合网络上的社会化推荐算法。本文将社会化推荐问题建模为由用户—用户社交网络和用户—物品二分网络构成的耦合网络上的层间链路预测问题,并假设存在一个潜在用户兴趣相似性矩阵可同时用于推断社交网络和用户—物品二分网络。通过两个观测网络的相互约束,提出了一个基于线性优化的社会化推荐算法(Social Recommendation via Linear Optimization,简称SLO)。实验结果表明SLO与六个基准算法相比,在四个推荐准确性指标和两个推荐多样性指标上更具优势。本研究提供了一个可应对准确性—多样性困境、数据稀疏性挑战、冷启动挑战的推荐算法。