基于P系统的DNA遗传算法在聚类分析中的研究与应用
【摘要】:聚类分析技术是数据挖掘工作中的一种有效工具,在学术界和实际工作应用中也出现了多种聚类算法,但各种聚类算法并不完美。在本文的研究工作中,首先提出了一种新型的DNA遗传操作算子,并结合P系统,提出了一种改进的DNA遗传算法,来优化模糊C均值聚类和密度峰值聚类这两种聚类算法,并将改进的模糊C均值聚类算法应用于实际文本聚类。以下为本文的主要研究工作。提出了一种基于活性细胞型P系统的改进DNA遗传算法(Improved DNA-Dynamic Membrane Structure,以下简称IDNA-DMS)。首先设计了一种结构可变的活性细胞型P系统作为操作框架,利用了对象进化规则以及活性细胞型P系统特有的膜进化规则:膜溶解与膜创建,提高运算效率。其次,基于自然界生物知识,设计了一种新的DNA遗传算法的操作算子——剪接算子,并根据染色体结构特性,设计了两种不同类型的剪接算子:内剪接算子和外剪接—倒位算子,增强了进化过程中DNA池的种群多样性,有利于跳出局部最优的局限性,从而有利于最优解的产生。最后,通过最小化标准测试函数对算法进行了验证,与其他三种优化算法相比,IDNA-DMS对于解决复杂的多峰全局优化问题是有效且高效的。提出了一种基于IDNA-DMS的加权模糊C均值聚类算法(Weighted FCM,以下简称WFCM)。首先,改进了传统FCM算法的计算公式,提高了FCM对孤立点和噪声点敏感的问题;将新提出的IDNA-DMS与WFCM相结合,称为WFCM+IDNA-DMS算法,改进的模糊C均值聚类的初始聚类中心被IDNA-DMS经历迭代优化后获得。最后,在四个真实的UCI数据集上验证了算法的有效性,并与FCM和WFCM进行了比较,证明了WFCM+IDNA-DMS算法的优越性。提出了一种基于IDNA-DMS的模糊邻域密度峰值聚类算法(Fuzzy Neighborhood-DPC,以下简称FN-DPC)。使用IDNA-DMS算法来优化截断距离dc,并且用模糊隶属度来优化局部密度,对密度峰值聚类算法本身进行了改进,将该算法称为FN-DPC+IDNA-DMS算法,并在人工数据集和UCI数据集上分别进行了测试,并将UCI数据集上的实验结果与DPC,DBSCAN和K-means算法进行了对比。实验证明,该方法具有较好的系统稳定性和鲁棒性。将提出的WFCM+IDNA-DMS算法应用于文本聚类实验,进一步检验该算法在实际工作中的应用效果。试验中采用的文本数据集从搜狗实验室在线获取,最终结果证明了IDNA-DMS+WFCM算法在实际工作中的可行性。