复杂网络中挖掘社团结构的新聚类算法研究
【摘要】:
复杂网络是伴随着与之交叉的其他学科的发展而兴起的。它的理论还不够完善,因此需要对它进行深入的研究。因为它是一门交叉性科学,来自其他学科的方法可以在复杂网络中得到很好的应用。本论文是应用图论中的方法和数据挖掘技术来研究复杂网络中的社团结构性质。对社团结构研究,有利于让我们理解复杂网络中社团的性质,以及实际网络中海量节点和边之间蕴藏的知识和关系。
本文在参考大量社团结构的聚类算法后,提出了新的社团结构聚类算法。首先,考虑一个简单的网络,思考如何划分社团结构,直到发现一个新算法。该算法能在这个简单网络得到正确的划分结果。然后把它应用在更为复杂的网络中,看是否能达到与其他算法相同的效果。在改进自己算法的的同时,也可以把别人提出的算法作出改进,看是否能在时间复杂度和效果上得到提高。最后,把提出的新算法在一个实际网络中验证,并且把验证的结果与经典的聚类算法做出对比,看是否能得到类似或更好的效果。
本文提出的算法已经在足球网络和圣菲研究所中的一个科学家合作网络中验证,通过与G-N算法相比较,证明本算法的效果较好,都能挖掘出与G-N算法数目相同的社团。在时间复杂度方面,G-N算法的时间复杂度为O(m2·n),扩展的改进G-N算法的时间复杂度为O(c·m·n)(c为该复杂网络的常数),而扩展的DBNS算法的时间复杂度小于O(k·m·n2),其中k为节点的平均度。可以发现,扩展的改进G-N算法的时间复杂度比原G-N算法要低,而扩展的DBNS算法的时间复杂度虽然难以计算,但也有一个上限,这个上限又小于G-N算法的时间复杂度,因而扩展的DBNS算法的时间复杂度也小于G-N算法。
当然,扩展的改进G-N算法和扩展DBNS算法也有着不足之处,如算法步骤过于复杂、计算量大、效果比G-N算法要差(Q值小)等等,这些都是今后工作和研究的重点。