基于分类器集成技术的数据流分类研究
【摘要】:随着通信和计算机信息技术的发展,许多应用领域,如金融市场、网络监控、传感器网络产生了大量连续到达的数据流。针对数据流的挖掘引起了学者们的广泛关注。但目前大多数数据流挖掘算法都假设数据是以精确的信息出现的,而在实际生活中,由于测量误差、传输延迟、数据缺失等原因,所收集到的数据往往带有大量的不确定性信息。同时,大多数数据流分类算法假定数据流上的数据是完全标记的,而在实际应用中,完全标记数据流需要消耗大量的人力资源。因此,研究处理含有不确定信息的数据流算法以及只需要部分训练样本的数据流算法具有重大意义。
本文针对训练数据中类别属性带有不确定性的数据流进行研究,同时对只含正例样本和大量未标记样本的数据流(PU数据流)分类进行探讨,主要研究成果与创新点如下:
(1)针对不确定决策树分类器NS-PDT仅能处理离散属性问题,采取遍历连续属性中所有可能分裂点查找最大非确定信息增益的方法对NS-PDT进行扩展,使之能够处理连续属性。
(2)针对不确定数据流,提出使用静态分类器集成(Static Classifier Ensemble)算法进行分类。静态分类器集成算法以扩展后的NS-PDT为基分类器,采取加权投票的方式对数据流上的未标记样本进行预测,有着较好的分类能力。
(3)在静态分类器集成算法的基础上,提出一种动态分类器集成算法(Dynamic Classifier Ensemble)。动态分类器集成算法根据不同的测试样本决定分类器集合中基分类器的权重,从而提高静态分类器集成的分类能力。
(4)针对PU数据流中训练样本仅含有正例样本的问题,提出一种新的动态分类器集成算法DCEPU,DCEPU算法构造了适合于PU学习的验证集,同时设计了新的权重更新方式。能有效处理PU场景下的概念漂移问题。
在人工数据集SEA以及Hyperplane,真实数据集RCV1-v2上对不确定数据流的静态分类器集成算法和动态分类器集成算法进行了验证和比较,实验结果表明,两种算法均能有效处理不确定数据流上的概念漂移,其中动态分类器集成算法比静态分类器集成算法能提高2%左右的PCC_dist准确率。
在RCV1-v2数据集上设计了多个场景模拟概念漂移,检验DCEPU的分类性能,结果表明在PU数据流场合,DCEPU算法比Stacking最大能提高3.4%的F1准确率。