基于结构方程模型的因果分析算法研究及应用
【摘要】:近年来,探索和发现观测变量间的因果关系在数据科学界受到了广泛的关注,了解事物间的因果关系相对于相关关系或其他统计关系在医学、经济学、社会学等领域都更加有研究价值。目前,无论是基于条件独立性还是基于结构方程模型都涌现出了一批经典的因果分析模型,但基于条件独立的方法都将产生马尔可夫等价类,因此本文主要研究基于结构方程的因果推断模型。我们主要做了以下两个工作:(1)在结构方程模型中,给定两个变量X和Y,其假设结果变量Y是原因变量X和噪声变量N的函数,通过合适的模型限制后,我们可以发现在两个因果方向上的不对等关系,进而推导出正确的因果方向。但目前,大部分的研究都关注于变量的数据类型均属于同一类型,即都为连续随机变量或离散随机变量。在本文中,我们关注当两个变量的数据类型不相同,即一个为离散随机变量另一个为连续随机变量时,如何推断其因果方向。我们提出应用于混合数据的加性噪声模型,由原因变量与噪声变量仅在正确因果方向上独立的条件,根据信息熵理论,推导出前向模型和后向模型之间的不对称性并提出因果判断准则。在给定数据的条件下,提出离散回归算法和连续分类算法用于计算残差熵,并在符合模型假设的模拟数据和近似符合模型假设的真实数据集上验证了模型的有效性。(2)在大规模的因果对的分析问题中,单个的基于结构方程模型的算法由于模型假设对观察数据的限制,其在分析多个由不同数据生成机制产生的数据对的因果关系上效果并不理想。因此在给定训练数据的前提下,可以用机器学习方法训练模型学习因果数据间的统计特性,作为监督学习对数据对的因果关系进行预测。我们提出将基于结构方程模型的算法作为特征,通过标准化、离散化、重标记等操作对数据进行预处理,提取特征并用逻辑回归、随机森林、XGBoost这些算法训练模型并在测试集上进行预测,取得了比以往研究更好的实验结果。