受热力学启发的人工智能解释 Nature

介绍

根据观测数据执行预测是广泛科学学科中普遍关注的问题。传统上，科学家们通过开发数学模型来解决这个问题，这些模型利用他们对潜在物理过程的了解将观察与预测联系起来。然而，在许多实际情况下，由于缺乏系统特定信息，构建这种显式模型是不可行的. 近年来，出现了一类涉及人工智能（AI）的纯数据驱动方法，并取得了显著的成功.这些方法通常被称为黑盒模型，因为它们不依赖于对系统内部工作原理的深入理解，并且旨在直接从数据中提取模式。然而，当涉及到根据这些模型做出明智的决策和政策时，这种缺乏理解会引起人们的担忧。

最近在解决这个问题方面取得了重大进展，所提出的方法可分为两类：（1）本质上可解释的 AI 模型（例如，提供可理解决策路径的决策树、评分机制、广义加法模型等），或（2）针对本质上不可解释的 AI 模型的事后解释方案，称为 XAI（例如，基于梯度的方法：逐层相关性传播（LRP）、引导反向传播、积分梯度;树或线性近似于黑盒行为的替代模型;基于博弈论的方法等）。尽管由于 XAI 的某些限制，最近有人推动了前一类方法，大多数现有的黑盒 AI 本身并不是可解释的。因此，XAI 已被广泛用于为黑盒 AI 预测生成人类可理解的基本原理.在 XAI 范式下，开发的方法可以是特定于模型的黑盒，也可以是与模型无关的，它们以视觉或特征重要性归因的形式生成全局或局部有效的解释.

在这项工作中，我们专注于与模型无关的 XAI 方法，即一类特定的方法，通过仅访问黑盒模型的输入和输出层来工作。最近，出现了一种趋势，即越来越多的 ML 模型仅用于用户级别的推理目的，而模型架构和训练的参数则保留用于商业目的。为了评估此类 ML 模型的可信度，与模型无关的 XAI 是为数不多的有效选择之一。

最早和最有影响力的模型不可知解释方法之一是部分依赖图（PDP）.PDP 可视化特征子集与预测之间的关系，同时保持所有其他特征不变。很久，在 2016 年，随着 Ribeiro 等人引入局部可解释模型不可知解释（LIME：Local Interpretable Model-agnostic Explanations），与模型无关的解释取得了重大突破。LIME 构造一个线性替代模型，该模型在局部近似于黑盒模型的行为。然后使用与构建的线性模型的每个特征相关的系数来归因局部特征重要性。由于其易用性，LIME 已成为最广泛采用的与模型无关的解释方法之一。在 2018 年的后续工作中，Ribeiro 等人引入了锚，该方法旨在识别足够的 if-then 条件作为解释，以便在特征值更改时保留预测。从那时起，其他研究人员一直致力于扩展 LIME 的适用性，例如 Zhang 等人调查了由于随机邻域抽样程序、不正确的相似性测量、缺乏稳健性等原因在 LIME 中可能出现的潜在不确定性，并提出了一组测试来信任解释本身。

SHapley 加法解释（SHAP）由 Lundberg 和 Lee 于 2017 年推出，通过将合作博弈论概念与模型不可知的解释方法相结合，进一步推动了该领域的发展。SHAP 值通过考虑所有可能的特征组合集来评估每个特征对预测的贡献，从而提供特征重要性的综合指标。SHAP 的一个关键优势是它能够检测特征之间的非线性依赖关系。此外，SHAP 能够为黑盒预测提供局部和全局解释。

尽管这些方法的开发是为了使 AI 预测合理化，但存在一个确保人类高可解释性的潜在问题。挑战在于，没有既定的方法可以直接量化生成的解释的人类可解释性程度。这是评估 AI 模型可信度的一个主要问题，但经常被忽视。例如，当合理化涉及大量相关特征时，实现高人类可解释性并因此建立信任可能具有挑战性。到目前为止，这个方向的研究进展包括构建线性模型以近似 AI 模型并将模型参数的数量作为人类可解释性的代理的方法（类似于其他数学领域的一些已建立的方法，例如，在 Akaike 信息准则中或贝叶斯信息准则).

我们工作背后的主要动机之一是认识到模型复杂性可能不足以描述人类可解释性，如图 1 所示。在这种情况下，如果模型复杂性用作人类可解释性的代理，那么两个线性模型都如图 1 所示。a、b 将被分配相同的值，因为它们都具有相同数量的模型参数。事实上，以前的研究揭示了当受到不同刺激时，信息处理能力的瓶颈引起的人类认知限制。因此，我们将自己建立在信息论对熵的定义之上并采用一种将线性模型权重视为概率分布的方法。这使我们能够通过计算类似于香农熵的量来评估不同线性模型之间人类可解释性的差异。如图 1 所示，很明显，与模型 1 相比，模型 2 对人类来说明显更容易理解。如果两个模型表现出相同的准确性，则最好选择模型 2 而不是 1，因为它提供的可操作策略较少。我们在现有方法中通过引入解释熵的概念来评估任何线性模型的人类可解释性程度，从而解决了这个问题。我们表明，在简单条件下，我们对解释熵的定义解决了基于复杂性的量化的缺点。

图 1：模型复杂性不是人类可解释性的良好描述符。

a线性模型 1 的说明性输入特征系数。b线性模型2的系数。两个模型具有相同数量的模型参数（6）。但是，模型 2 明显比模型 1 更易于人类解释，其中 6 个特征中有 2 个与预测最相关。

此外，我们从经典热力学的角度看待 AI 模型解释的整体问题.在热力学中已知，系统的平衡状态以其亥姆霍兹自由能F（T，V）≔U−TS的最小值为特征。这里U和S分别表征在恒定温度T和体积V下具有固定数量粒子N的系统的内部能量和熵。同样，我们在这项工作中建立了一种形式主义，其中解释的最优性（ζ）被评估为它的不忠实性（U）和基础真值之间的权衡，和解释熵（S).类似于经典热力学中的U和S，在我们的形式主义中U和S单调地相互依赖。这种权衡的强度可以通过参数θ进行调整，以确定最稳定的解释，该参数的作用类似于热力学温度T。对于θ> 0 的任何选择，ζ都保证只有一个最小值，在某些条件下由一对值表征{U,S}。

我们将我们的方法称为受热力学启发的 AI 和其他黑盒范式的可解释表征（TERP），它从 LIME 中汲取灵感，构建局部线性替代模型来生成黑盒解释。然而，与现有文献中的方法相反，TERP 侧重于使用本文中引入的解释熵的概念直接量化人类可解释性的程度，以产生独特的解释。由于其与模型无关的实现，TERP 可用于解释来自任何 AI 分类器的预测。在这项工作中，我们通过解释以下黑盒模型的预测来证明这种普遍性：（1）基于自动编码器的 VAMPnet对于表格分子数据，（2）用于图像的基于自注意力的视觉Transformer（3）基于注意力的双向长短期记忆（Att-BLSTM）的文本分类。特别是，第一类模型属于一个正在快速发展的研究领域，涉及分子动力学（MD）模拟.作为对 MD 模拟有着浓厚兴趣的研究人员，我们观察到该领域对 AI 模型的解释工具的应用非常有限。因此，我们相信我们提出的方法 TERP 将证明对专注于该主题的更广泛科学界有价值。

结果

解释不忠实性（U）用于替代模型构造

我们的起点是一些给定的数据集X以及来自黑盒模型的相应预测g。对于特定元素x∈X，我们寻求尽可能人类可理解的解释，同时也尽可能忠实于x附近的g。我们的目标是通过开发线性近似来解决解释g的问题，由于其线性结构，线性近似更容易解释。具体来说，我们将F表述为一组有序的代表性特征的线性组合s= {s、s， ...，s}.通常，这些特征是依赖于域的，例如，图像的热编码超像素、文本的关键字和表格数据的标准化值。我们在下面的公式（1）中证明了这一点，其中F表征线性近似值，f是常数，f来自一组有序的特征系数，f= {f、f， ...，f}.

(1)

让我们考虑一个具体问题，其中x是高维实例，g（x）是黑盒模型预测，需要对此进行解释。我们首先通过随机扰动高维输入空间生成一个邻域 {x、x， ...，x}。之后，黑盒预测 {g（x）、g（x）， ...，g（x）} 获得与邻域中的每个样本相关联。随后，通过使用方程（2）中定义的损失函数采用线性回归来构建局部替代模型。

这里

是高斯相似度测度，其中d是解释实例x之间的距离和邻域样本X.在以前的替代模型构造方法中，连续输入特征空间中的欧几里得距离一直是d的典型选择。但是，如果输入空间具有多个相关或冗余特征，则基于欧几里得距离的相似性度量可能会产生误导.TERP 通过使用线性判别分析计算邻域的一维（1-d）投影来解决此问题（LDA），它消除了冗余并产生了更准确的相似性。这种投影通过最小化类内方差和最大化类间距离，鼓励在一维空间中形成两个集群，分别对应于类内和非类内数据点。由于投影空间是一维的，因此无需调整超参数，

中σ在已建立的方法中可能是必要的，我们可以设置σ= 1。我们通过在随后的小节中进行实验来证明基于 LDA 的相似性对实际问题的优势。

接下来，我们引入一个有意义的不忠实度量（U）生成的解释，根据使用公式（1）和黑盒预测（g）获得的线性替代模型预测（F）之间的相关系数C计算得出。对于任何解释，C（F，g）∈[ − 1， + 1]，因此解释不忠实性是有界限的，即U∈[0,1]

U=1 − | C(F,g) | (3)

使用这些定义，我们实现了一个前向特征选择方案，首先构建n个线性模型，每个模型都有j= 1 个非零系数。我们使用等式（3）来确定导致最低Uj=1.此处，上标j= 1 突出显示了U是针对具有j= 1 个非零系数的模型计算的。我们将在整个手稿中对其他相关量遵循此符号。

然后，传播所选特征以识别两个最佳特征集，从而产生最低的Uj=2，并且该方案将持续到Uj=n被计算。由于具有j+ 1 个非零系数的模型与方程（1）中定义的具有j个非零系数的模型相比，其不忠实度较低或充其量相同，因此可以观察到U随j单调递减。当j从 1 到n时，整个方案会产生n种不同的解释。

解释熵（S）进行模型选择

在确定了n种解释之后，我们的目标是从这一系列模型中确定最佳解释。在这一点上，我们介绍解释熵的定义S用于量化任何线性模型的人类可解释性程度。给定一个线性模型，其中有一组有序的特征系数 {f、f， ...，f}，其中j为非零，我们可以定义 {p、p， ...，p}，其中

. 然后解释熵定义为：

(4)

此处的上标j表征S针对具有j个非零系数的模型进行计算。很容易看出p满足概率分布的属性。具体来说，p≥ 0 和

与信息论中的自信息/惊异(surprisal)概念类似，拟合线性模型中p的负对数可以定义为该特征的自解释性惩罚。然后，将解释熵计算为所有特征的自解释性惩罚的期望值，如方程（5）所示。使用 Jensen 不等式，可以证明S的上限为日志log(n) 我们可以对定义进行规一化，以便S以 [0， 1] 为界。

这种函数式解释形式的熵（S），即可解释性惩罚，鼓励拟合权重的急剧峰值分布的低值，表明人类可解释性高，反之亦然。此外，如果特征是独立的，则S在下面的定理中表达了两个有趣的性质。

定理 1

Sj是特征数（j）的单调递增函数。

定理 2

随着U减少S单调递增。

用于最佳解释的自由能（ζ）

对于具有j个非零系数的解释，我们现在定义自由能ζ作为Uj和Sj可通过参数θ≥ 0 进行调节，如图 2和方程（6）。

(6)通过为稳态值 Δ 编写方程（7）中所示的表达式Δζ=ζ−ζ= 0，我们可以在每个j∈[1，n− 1]定义特征温度θ。本质上

是具有j个非零系数的模型的随每单位解释熵变化的不忠实度变化的度量。这与热力学温度的定义非常相似，热力学温度被定义为内能相对于熵的导数。然后，我们用（j+ 1）个非零系数确定解释，该系数将

作为最佳解释，因为可以保证ζ将保留集合中最低的最小值 {ζ、ζ， ...，ζ， ...，ζ} 在最宽的温度范围内。最后，我们计算最佳温度

（θ内的任何值<θ<θ同样有效，因为最优解释本身不会改变），并将解释生成为此模型的权重。全部ζ本手稿中显示的 vs.j图是使用最佳温度的定义创建的。

因此

(8)这又让人想起了经典的热力学，其中系统的平衡构型通常会随温度而变化，但粗粒度的亚稳态描述在明确定义的温度范围内保持稳健。在我们的框架中，当θ= 0 时，ζ在j=n解释时最小化，或者最大化不忠实并完全忽略熵的模型。当θ从零开始增加时，解释熵对ζ的贡献更大.此处，（θ−θ）是j非零系数解释稳定性的度量。完整的 TERP 协议总结为一种算法，如图 3所示。

图 2：突出自由能特性的说明性示例ζ、不忠Uj和解释熵Sj.

a Sj强度对ζ的贡献可以使用θ进行调谐。ζ显示了三种不同θ= 9、6、4 的 vs.j图，分别在j= 2、3、4 处产生最小值。乙Uj vs.j不受θ影响。C θSj vs.j图显示权衡的强度可以通过θ进行调整。

图 3：TERP 算法。

描述生成与黑盒模型预测对应的最佳 TERP 解释的协议。

图像分类应用：视觉Transformer （ViTs）

Transformers 是一种机器学习模型，其特征是存在自我注意层，通常用于自然语言处理（NLP）任务. 最近提出的 Vision transformers （ViTs）旨在将 Transformer 架构直接应用于图像数据，无需卷积层，已成为计算机视觉中的热门选择。根据结构，ViT 是黑盒模型，由于它们的实际用途，最好在部署之前采用解释方案来验证它们的预测。

ViT 的工作原理是将输入图像分割成更小的时空分片，将每个分片视为类似于 NLP 中的单词的次元。然后嵌入这些 patchs （patch-embeddings）并传递给 transformer 层进行自我注意和前馈操作。这样的设计使 ViT 能够捕捉图像中的长程空间依赖性并学习有意义的表征。有趣的是，众所周知，ViT 在有限的训练数据下表现不佳，但在足够大的数据集下，ViT 已被证明优于基于卷积层的模型。因此，典型的 ViT 实现包括两个阶段：首先，使用大型数据集来学习有意义的表征并预先训练可转移模型，然后针对特定任务进行微调。

在这项工作中，我们采用了作者在 ImageNet-21k 数据集上预先训练的 ViT. 然后，通过对公开可用的大规模 CelebFaces 属性（CelebA）进行训练，微调用于预测人类面部属性的模型数据。CelebA 是一个包含 202,599 张人类面部图像的大型集合，每张图像都标有 40 种不同的属性（例如，“微笑”、“眼镜”、“男性”等）。在训练过程中，输入图像被转换为 16 × 16 像素的分片，导致每个 CelebA 图像（224 × 224 像素）总共有 196 个分片，如图5b所示。

图 5：使用 TERP 解释和检查在 CelebA 数据集上训练的 ViT 的可靠性。

aViT 预测此图像中存在“眼镜”的概率为 0.998。b在 ViT 分片的 16 × 16 像素定义之后，测试图像的超像素定义。TERP 结果显示c Uj、d Sj，e θ和f ζ作为j、g的函数对应的 TERP 解释。我们可以看到θ的最大下降从j= 2 到j= 3 时发生。通过定义最佳温度

如 “Results” 部分所述，最低ζ在j= 3 处观察到。面板h-j显示完整性检查，即 AI 解释方案的结果在模型参数随机化（h）、（i）和数据随机化（j）下应该是敏感的。k显著性图结果作为“眼镜”预测的基线解释。红色突出显示了 RGB 通道中类概率梯度绝对值较高的像素。与 'Eyeglasses' 无关的像素处的高梯度显示了显著性图解释的局限性。lTERP 和m类 'Male' 的显著性图解释。Uj, Sj、ζ和θ因为（l，m）的j函数在SI中提供。

为了解释 ViT 预测，“眼镜”（预测概率为 0.998）,对图 5a使用 TERP。我们首先通过将图像划分为对应于 196 个 ViT 分片的 196 个超像素（像素集合）来构建人类可理解的代表性特征，如图5b所示。之后，按照邻域生成方案，通过对随机选择的超像素的 RGB 颜色求平均值来生成扰动图像的邻域。图5c-f 显示Uj,Sj、θ和ζ作为j的函数（图3）。因此，TERP 解释使我们能够得出结论，“眼镜”的 ViT 预测是出于正确的原因。最佳 TERP 解释出现在j= 3 处，如图 5g所示, 这是由于θ的最大减小因为j从 2 增加到 3。使用公式（7）和（8），ζ，并且最小值出现在j= 3 处。

数据和模型参数随机化实验表明 TERP 解释很敏感

为了确定 TERP 在生成解释时确实同时考虑了输入数据和黑盒模型，我们对我们的协议进行了 Adebayo 等人开发的健全性测试。我们通过采用微调的 ViT 模型并在他们的工作之后以自上而下的级联方式随机化模型参数并获得损坏的模型来实现这一目标。具体来说，我们分别随机化 ViT 块 11 − 9 和块 11 − 3 的所有参数，以获得两个损坏的模型。这两个型号的“眼镜”的 TERP 解释如图 5h所示。显示的绘图Uj,Sj、ζ和θ因为这些模型的j 函数在 SI 中提供。在这里，我们的想法是，由于随机化，解释将与基本事实不匹配。但是，一个好的 AI 解释方案应该对这种随机化测试敏感，并产生与完全训练的模型不同的解释。同样，我们实施了在同一工作中提出的数据随机化测试（图 5j），其中训练数据的标签在训练前随机化，并使用损坏的数据获得新的 ViT。同样，AI 解释方法的结果应该对这种随机化敏感。从相应的 TERP 解释中可以看出。5h-j，我们得出结论 TERP 通过了两个随机化测试。

基于显著性图的基线基准显示 TERP 解释是可靠的

为了了解解释的有效性、稳健性和人类可解释性，我们分别将 TERP 与显著性图、 LIME 和 SHAP 进行了基准测试。在本节中，我们首先表明，与基线方法相比，TERP 解释明显更好、更合理，即使用先前训练的 ViT 进行“眼镜”预测的简单基于梯度的显著性图。与更高级的方法（LIME 和 SHAP）进行比较，以展示我们的工作如何为现有领域做出贡献，将在下一小节中讨论。

从图5k，我们看到了显著性解释的局限性，例如，检测到许多与“眼镜”无关的像素在 RGB 通道中具有较高的概率梯度绝对值。这并不奇怪，因为众所周知，显著性图可以检测颜色变化、对象边缘和其他高级特征，而不是学习模型输入和类预测之间的关系.我们还为标签“男性”生成了 TERP 和显著性图解释，如图 5L 所示。同样，显著性图解释包括应该与此预测类无关的像素。相反，TERP 解释涉及的像素应该与证明结果有效性的相应类相关。

与高级方法的比较表明 TERP 解释是独一无二的

在本小节中，我们将 TERP 与生成独特且高度人类可解释性的最新解释方法进行了比较。为了确保公平的比较，我们重点介绍其他广泛使用的与模型无关的事后解释方案（LIME和 SHAP），这些方法仅适用于黑盒模型的输入和输出层。

LIME 通过最小化来生成黑盒预测（g）的局部线性近似值（f）：

这里L是保真度函数（通常为均方根误差），π是邻域相似度，Ω是代理线性模型的复杂度度量。在实践中，LIME 是通过首先执行加权线性回归，然后（1）选择具有极值系数的前j个特征，或（2）直接实施具有L1 正则化的 Lasso 回归来实现用于构建稀疏模型，其中稀疏度可以通过超参数α进行调整。j和α通常都取决于所调查的实例，并且需要由用户将其设置为合理的值。因此，LIME 中缺少基于人类可解释性的准确机制来生成独特的解释，并且在分析大量黑盒预测时，需要进行大量测试/人工干预。

虽然 TERP 和 LIME 都使用相似的保真度函数，但主要区别在于 TERP 不使用模型复杂性或简单性作为人类可解释性的代理。正如 “引言” 中所讨论的，此类指标可能具有误导性，TERP 通过引入解释熵的概念直接计算人类的可解释性程度。之后，通过识别导致每单位熵增加的不忠实度降低幅度最大的特征集来生成独特的解释。

我们应用 LIME 来解释 “眼镜” 的 ViT 预测，如图 6a 所示，显示对预测有前 10 个影响的特征。我们还在 LIME 中实施了第二种方法，即 10 个不同α值的稀疏模型的 Lasso 回归。随着α的增加，解释中所选特征的数量会减少，如图 6b所示。虽然 LIME 识别的相关超像素是合理的，并且与 TERP 识别的超像素重叠（图 5g），LIME 涉及超参数选择/人为干预，这对于高通量实验来说可能是不可行的，例如，在分析 MD 数据时。

图 6：最先进方法的黑盒解释。

a对具有顶部j= 10 个特征的“眼镜”的 LIME 解释，b稀疏模型大小与调节L1 正则化强度的超参数α。分别为 c“眼镜”、d和“男性”预测的 SHAP 值。这些结果与解释的一致性如图 5 所示验证了 TERP。

在 LIME 之后，我们实施了另一种广泛使用的最新方法 SHAP，用于解释“眼镜”和“男性”预测，如图 6c 所示， d.与极端 SHAP 值关联的特征表征对黑盒预测的贡献很大。具体来说，与特征j相关的 SHAP 值可以通过以下方式获得：

. 在这里，前因子表征特征 j 到 S 的边际贡献（括在 [] 中）的权重，其中 S、∣S∣和 N 分别表征一组特定的特征（联盟）、该特定联盟中的特征数和特征总数。边际贡献是通过减去当 j 分别存在于联盟中存在和不存在时特征 j 在预测中的影响来评估的。在获得所有特征的 SHAP 值后，通常通过取具有最极端 SHAP 值的前 j （j 是用户定义的）特征来获得稀疏解释。因此，与 LIME 类似，SHAP 解释也不是唯一的。通过将 SHAP 结果与 TERP 进行比较（图5gl），我们再次看到相关特征重叠，这验证了 TERP 的解释。

在本节中，我们将 TERP 与两种广泛使用的最先进的、与模型无关的事后方法进行了比较，并证明了 TERP 解释的有效性。此外，通过采用这项工作中开发的理论，TERP 成功地产生了高度人类可解释的独特解释，这与既定方法不同。

AI 增强 MD 的应用：VAMPnets，降维（LDA）显著提高邻域相似性，应用于文本分类：基于注意力的双向长短期记忆（Att-BLSTM）

讨论

基于 AI 的黑盒模型的广泛采用已成为各个领域的标准做法，因为它们能够在不需要深入了解底层流程的情况下进行部署。然而，这一优势也对 AI 模型的可信度和解释提出了挑战。在这项研究中，我们引入了一个受热力学启发的框架来创建复杂黑盒模型的可解释表征。我们的目标是使用类似于能量-熵权衡的概念找到能够最大限度地减少与真实模型差异的表征形式，同时保持对人类的高度可解释性。此外，这项工作中引入的解释熵的概念有可能在 ML 之外的一般基于人类可解释性的模型选择中有用。在未来的工作中，可以为通用线性回归开发高效的优化算法，该算法使用方程（4）作为正则化来直接构建人类可解释的模型。

我们展示了这种方法在各种 AI 应用中的有效性，包括图像分类、文本分析和分子模拟。虽然有几种方法过去曾提出解决 AI 可解释性问题，但只有少数已被用于例如阐明分子模拟。重要的是，我们的工作标志着可解释性技术在快速发展的 AI 增强分子动力学领域的开创性应用之一。

我们的框架（TERP）的最新应用有助于揭示晶体成核背后的关键机制和疏水配体解离.鉴于分子科学在揭示化学反应途径方面的关键作用、了解疾病机制、设计有效的药物以及许多其他重要领域，确保准确分析至关重要，因为黑盒模型中的错误可能会对财务和公共卫生产生重大影响。TERP 应该为分子科学的从业者提供一种方法，通过与热力学领域简单而有力的相似之处，在严谨的基础上解释这些黑盒模型。

本文转载自，作者：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/qitabaihuo/32791.html

受热力学启发的人工智能解释 Nature

介绍

结果

解释不忠实性 （U） 用于替代模型构造

解释熵 （S） 进行模型选择