因果推断旨在描述给定变量之间的因果关系。然而,在许多实际系统中,变量通常只能部分观测到,而一些未观测到的变量可能携带重要信息并对目标产生因果效应。识别这些未观测到的原因仍然是一个挑战。最近这篇发表于 Entropy 「因果与复杂系统特刊」的最新研究使用一个名为神经因果信息提取器(Neural CausalExtractor,NCIE)的生成器-判别器框架构建隐变量,它可以补充未观测到原因的信息,从而提供包括已观测到的原因和未观察到的原因的表示在内的完整原因集合。通过最大化目标与已观察到的原因和隐变量的并集之间的互信息,生成的隐变量可以补充未观测到的原因本应提供的信息。合成实验表明,隐变量保留了未观测到的原因的信息和动力学。此外,广泛的实际时间序列预测任务在引入隐变量后显示出更高的精度,表明它们与目标之间的因果关系。本文是论文第一作者梁京昊对论文的解读。
在现实场景中,通常我们研究的系统不是全部可观测的,它们包含了一些不可能或者很难观测到的变量。比如,我们很难以高时间及空间精度捕捉并建模ECO中各种类的数量变化和环境动态;在预测空气污染程度,或者跨市交通客流量时,目前已有的数据集也很难收集到所有因变量。因变量的缺失导致没办法精确描述目标变量的因果过程,也无法准确拟合预测模型。
图1. 维恩图表示的 信 息 ,(a)基本事实的因果关系;(b)现实中部分可观测情景 的因果关系 ;以及(c)由NCIE生成的隐变量Z的替代性因果关系表征,其中Y、X和W分别表示目标、观察到的原因和未观察到的原因
如图1所示,作者考虑了两个假设:1. 因变量X会给目标变量Y提供条件互信息,2. 目标变量Y的信息会被全部因变量 (可观测的X和不可观测的W) 的信息所覆盖。所以,在现实场景中,可观测的因变量X只能给目标变量Y提供一部分的信息,而另一部分是由未被观测的W所提供的。这篇工作的目标是生成隐变量Z,使得隐变量Z携带和表征未被观测的W的那部分信息。除了使隐变量Z表征W之外,这篇工作的另一主要贡献在于提出并实现了一种比较直接简单的利用神经网络最大化互信息和条件互信息的方法。
这篇文章会着重介绍模型的结构和它如何达成上述两个目标,并阐释此方法结构的不足之处。
在因果推断中,隐变量或未被观测的因变量 (hidden confounder or unobserved causes) 是一个主要的问题,在Peter Sprites为代表的只观测不干预的因果图推断构建方法中,隐变量的问题更为严重。缺少某些变量会导致因果图上节点缺失,基于图论构建的因果图会因此有偏,画出错误的连边 (因果关系) 。
论文 [1] 认为,由于因果过程是一个信息转移的过程,所以目标变量的信息应由因变量提供。在时间序列中, t 时刻目标变量 Yt 的因变量包括了目标变量自身和某些其他变量的历史 ( Y和 X)。另外,[2] 认为,任一因变量都应该给目标变量提供一些其他因变量没办法提供的信息,即条件互信息 I(Yt; X X-)。
在部分可观测系统中,本来系统中的某些因变量没有被观测到,所以已被观测的变量只能给目标变量提供部分信息。本文旨在生成隐变量,使得隐变量携带除了已被观测的变量以外的信息。具体的问题表示为:设 Yt 为目标变量, Xt 为已知变量,那么 Yt 的信息 (熵) 分为能被 Xt 提供和不能被提供这两部分, H(Yt) = I(Xt ; Yt) + H(Yt Xt)。本文目标为生成隐变量 Zt 来携带 H(Yt Xt) 这部分的信息,这能够最终靠 maxz I(Y t ; Z t X t ) 来实现,因为 I(Y t ; Z t X t ) 的上界正是 H(Y t X t ) 。
如果把 Zt 看作是 Yt 的表征变量,这样的一个问题是一个最大化 (条件) 互信息的表征学习问题。最大化互信息是表征学习方法最重要的目标之一,但是如何有效且高效地衡量目标变量和其表征之间的互信息一直是个还没达致完美的问题,更别说如何最大化这两者之间的互信息。最耳熟能详的方法当属Variational AutoEncoder (VAE) ,通过训练代表p(zx)的编码器encoder和p(xz)的解码器decoder达到最大化evidence lower bound (ELBO) 的目的。这一方法可以有明显效果地地使表征携带目标的信息,但是它仍有几个限制:1. 无法处理时序数据中的时序信息,2. VAE假设表征符合高斯分布;又比如 [3] 通过数据符合高斯分布的假设能得出互信息的解析表达式,从而通过优化此表达式来最大化互信息。但是,和VAE一样,这些最大化互信息的方法都受到各种各样假设的限制,以致无法在广泛通用的情况里直接优化互信息。
有鉴于此,我们在看到了MINE [5] ,一个使用神经网络来最大化输入间的互信息的下界,从而估算互信息的框架时受到启发:既然可通过神经网络B来最大化互信息的下界,那B的输入端既可以是某个变量,也可以是另一个神经网络A的输出。如果我们把两个神经网络A和B串联起来,能够最终靠优化A和B的参数,最大化某个变量 (Y) 和神经网络A的输出之间 (表征) 的互信息。图二为我们的框架NCIE (Neural Causal Information Extractor) 的示意图。
换个角度看,这其实是一个Generator-Critic (对应文章中的Generator-Discriminator) 的结构:神经网络A是生成表征的Generator,而表征的损失函数,即对 Y 的互信息,则由训练好的神经网络B提供。在训练的时候,Generator会依据输入生成 Z ,而 Z 则作为Critic的输入得到Critic loss的梯度,即最大化互信息下界的梯度。这个梯度也会通过 Z 反向传播给Generator,两个神经网络的参数通过梯度下降完成更新:Critic会更准确地估计互信息,Generator生成的表征会对目标变量有更多互信息。
这个结构的优点是直接优化互信息,而且它对于数据分布的假设相对较少。这个框架比较新颖,除了这个工作之外,笔者发现同期投稿在NeurIPS,F.E.Rosas在其2023年11月发表的工作[4]也提出了相似的思路。
这个结构中的Generator和Critic也可以按需具体的问题而使用不相同的神经网络。Generator可以是任何神经网络,比如CNN,RNN,LSTM等;而Critic也可以是任何能估算互信息的神经网络,比如MINE [5] 和SMILE。在这篇文章里,我们主要考虑的是从Y和 X的时序信息学习到 Zt 的表征,所以Generator使用了RNN,Critic使用了MINE。
上述的框架能生成一个表征,使得表征和目标变量的互信息 I(Y;Z) 最大化,但还没实现我们最大化条件互信息 I(Y;ZX) 的目标。优化条件互信息要比优化互信息更困难,因为 I(Y;ZX) = I(Z;X,Y) - I(Z;X) 需要同时最大化 I(Z;X,Y) 和最小化 I(Z;X) 这两项信息量。目前优化条件互信息的工作非常少,已经发表的文章中[6]有利用条件采样 (Conditional Sampling) 达到最大条件互信息,但是这种采样方式对数据的分布和它是连续还是离散有特别的要求。
虽然暂时还没有直接优化 I(Y;ZX) 的框架,但是当我们的优化目标是对 Z 最大化 I(Y;ZX) 时,我们得知 I(Y;ZX) = I(Y;X,Z) - I(Y;X) 中的第二项对 Z 来说是常量,所以最大化 I(Y;X,Z) 也能达到最大化 I(Y;ZX) 的目的。但是,这样生成的 Z 虽然能够最大化 I(Y;ZX),我们仍无法限制 Z 是否携带了 X 的信息,这也是这篇文章还没完成的缺陷。后续我们的工作会在框架内加上一个最小化信息的模块,从 Z 中剔除 X 的信息,从而使 Z 真正的只表征 X 没有给 Y 的信息,欢迎各位老师朋友们关注我们的后续工作。
我们构建了几个简单的动力学系统,也采用了真实的时间序列数据集 (变电器油温,跨城交通客流量,北京空气质量) 来验证我们的框架。实验证明,相比单独的 X ,Z 和 X 能给 Y 提供大部分的信息。这也说明了,生成出来的 Z 能够弥补大部分 X 没有给 Y 提供的那部分信息。
此外,NCIE可当作一个特征抽取的模块,更好的拟合和进行时间序列预测等任务。我们的实验证明,NCIE+NN,NCIE+RNN,NCIE+LSTM的预测误差要比NN,RNN,LSTM低。
梁京昊,清华大学硕士二年级在读,目前在集智俱乐部做科研助理。研究方向:信息论,因果科学,复杂系统。欢迎有问题和讨论的老师和朋友通过邮件赐教。
随着“因果革命”在AI与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为非常关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。
集智俱乐部组织以“因果表征学习”为主题的读书会,聚焦因果科学有关问题,共学共研相关文献。欢迎从事因果科学、AI与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各路朋友报名参与。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
淮南市妇幼保健院原院长任兴备被开除党籍:违背社会公序良俗,在互联网空间有不当言行
前实习生遭字节跳动起诉,线万块GPU数据中心 马斯克为打败OpenAI竭尽全力
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
苹果16年前专利揭示Vision Pro头显雏形 其设计预示最终产品形态