Preparedness团队首席Aleksander Madry 机器学习模型的内部计算如何将输入转化为预测 OpenAI

考虑一个标准的ResNet50模型，该模型经过训练用于图像分类任务。 我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签 ？或者，GPT-3中的注意力头如何contribute到下一个标记的预测？理解这些模型组件——包括滤波器或头等架构“构建块”——如何集体塑造模型行为（包括模型失败）是困难的。毕竟，深度网络在很大程度上是黑匣子——由模型组件之间高度非线性交互构成的复杂计算图。

受到这一挑战的启发， 解释性工作的一个方向旨在通过表征单个组件的功能 ，例如视觉模型中的曲线检测器和对象特定滤波器，或语言模型中的知识神经元和归纳头，来阐明内部模型计算。作为这一工作方向的一部分开发的方法旨在以各种方式“放大”特定的模型行为和/或组件。

显式建模模型计算

为了解决上述问题，研究人员引入了一个称为 组件建模 的任务。组件建模的目标是构建一个简单且可解释的估算器，以了解模型的输出如何响应于对其组件的干预或消除。直观地说， 这里的关键想法（如下图所示）是，如果我们真正理解模型组件对预测的贡献，我们应该能够估计如果我们改变一些组件，预测将如何改变 ：

这项研究侧重于组件建模的一种特殊“线性”情况，称之为 组件归因 。如下所示，对于给定模型预测的组件归因首先为每个模型组件分配一个分数，然后估计消除一组组件的反事实效果，作为它们相应分数的总和：

组件归因很简单 ——它将给定的预测分解为来自每个模型组件的加法贡献。它们也是可解释的，因为分配给组件的“分数”表示该组件对感兴趣的预测的“贡献”（同时摆脱了模型的内部计算的复杂性）。

通过回归估计组件归因（COAR）

事先不清楚组件归因是否足够表达深度网络中从组件到预测的（固有的非线性）映射。然而，研究人员发现在视觉模型（例如ImageNet ViTs）和语言模型（例如Phi-2）上，实际上可以计算准确的组件归因——即，线性性足以预测组件消除的效果！如下所示：

为了计算这些归因（即上面的系数向量w），研究人员提出了一种简单的方法——称为COAR（通过回归进行组件归因），它将此任务转化为标准的监督学习问题，并分两步解决：

COAR归因准确吗？

回到在ImageNet数据集上训练的ResNet-50模型，将这个模型视为由22,720个组件组成，每个组件对应一个卷积滤波器。 能否使用COAR来预测这个模型将如何对组件消除做出响应（在这种情况下，消除对应于将给定一组滤波器的参数置零）？

为了回答这个问题，研究人员使用COAR来估计ImageNet验证集中每个50,000个示例的组件归因。结果是一组50,000个组件归因—每个归因估计每个组件对相应ImageNet示例上模型预测的贡献。

为了确定结果的归因是否有效，研究人员简单地检查组件归因是否准确估计了（随机地）消除模型输出上的随机子集的组件的效果。

例如，上图聚焦在一个单独的ImageNet示例上。每个点对应于一组（随机的）模型组件。给定点的y值是消除该组件集的反事实效果（即，将相应参数设置为零）；x轴是对该反事实效果的估计，由示例的组件归因给出。随机组件消除的基本事实和归因估计的效果展现了高达0.70的高相关性， 这意味着至少对于这个示例，组件归因在预测模型行为方面相当不错！

在下图中，将其转化为一个综合分析。也就是说，评估了所有验证示例中基本事实消除效果和基于归因的估计之间的平均相关性——为了测试COAR的限制，研究人员还改变了消除的组件比例，并研究了COAR的性能变化。作为基线，研究人员将几种“组件重要性”的概念调整到组件归因设置中。

总的来说，研究人员发现COAR在数据集和模型中一直以很大的优势 consistently outperforms多个归因基线。

译自（有删改）：

谁是Aleksander Mądry？

Aleksander Mądry是波兰裔计算机科学家，麻省理工学院（MIT）教授， OpenAI Preparedness团队首席科学家 。Aleksander Mądry的研究涉及机器学习、优化和图论，着重于操作化技术，使得机器学习算法能够安全地在现实世界中部署。他工作的主要焦点之一是开发能够处理对抗攻击的强大而高效的算法。 这一研究方向导致了一种使神经网络更加抗对抗攻击和剖析对抗样本广泛存在根源的方法的开发。 他还致力于基于连续优化的方法来解决组合优化问题，例如最大流问题和二部图匹配问题。

AleksanderMądry在2006年和2007年分别从弗罗茨瓦夫大学获得了计算机科学和物理学的学士学位。然后，他在MIT攻读计算机科学博士学位，于2011年完成。他的博士论文“从图到矩阵，再到图：图算法的新技术”获得了ACM博士论文奖荣誉提名和MIT乔治·M·斯普劳尔斯奖，被评为计算机科学领域的最佳论文。随后，他曾在微软研究新英格兰分部担任博士后研究员， 并在瑞士洛桑联邦理工学院担任教职，然后加入了麻省理工学院电气工程和计算机科学系的教职 。

Aleksander Mądry因其研究贡献获得了许多奖项和荣誉，包括NSF职业生涯奖。他的工作曾多次获得诸如IEEE计算机科学基础研究会议（FOCS）等会议的最佳论文奖。 2019年，他被欧洲理论计算机科学协会授予普雷斯伯格奖。

原文链接：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/qitabaihuo/33408.html

Preparedness团队首席Aleksander Madry 机器学习模型的内部计算如何将输入转化为预测 OpenAI

显式建模模型计算

通过回归估计组件归因（COAR）

COAR归因准确吗？

相关推荐

联系我们