思维可视化提示激发大语言模型空间推理能力

引言

最近，大语言模型（LLMs）在各种与语言相关的任务上取得了显著的表现。然而，尽管它们在数学推理、常识推理以及其他推理任务，如符号推理或逻辑推理等方面取得了成功，但它们在空间推理方面的能力仍然未被充分探索。

空间推理是人类认知的基本功能 ，使我们能够与环境互动。它促进了需要理解和推理物体及其运动之间空间关系的任务。语言模型的空间推理在很大程度上依赖于语言来推理空间信息，而人类的认知能力远远超出了语言推理。人类不仅可以从视觉感知中创建与任务相关的抽象表示，还可以通过心灵之眼想象看不见的场景。这在神经科学、心灵哲学和认知科学领域被称为 心智图像 的研究课题。建立在这一认知功能之上，人类通过心智图像的操作来促进空间推理，比如导航、心理旋转、心理纸张折叠和心理模拟。图1说明了在导航任务中涉及的人类过程。人类通过创建路径的心智图像来增强其空间意识并指导其决策，利用各种感官输入，如导航指令或地图图像。随后，他们通过心灵之眼模拟路径规划。

图1：人类可以通过在空间推理过程中创建心智图像来增强他们的空间意识并指导决策。同样地，大语言模型（LLMs）可以创建内部心智图像。研究人员提出了VoT，通过可视化它们在每个中间步骤的思维，来引发LLMs的“心灵之眼”，从而促进空间推理。

受到这一认知机制的启发，研究人员推测LLMs具有在心灵之眼中创建和操作心智图像的能力来进行空间推理。正如图1所示，LLMs可能潜在地处理和理解各种格式的空间信息。它们可能能够可视化内部状态，并通过心灵之眼操作这些心智图像，从而引导后续推理步骤以增强空间推理。因此，研究人员提出了 “思维可视化”（VoT） 提示来引发这种能力。该方法通过为LLMs增加一个视觉空间素描板来可视化其推理步骤并指导后续步骤。VoT采用零示范提示，而不是依赖于少量示范或使用CLIP进行文本到图像的可视化。这个选择源自LLMs从基于文本的视觉艺术中获得各种心智图像的能力。

为了评估VoT在空间推理中的有效性，研究人员选择了三个需要LLMs空间意识的任务，包括 自然语言导航、视觉导航和视觉铺设 。这些任务需要理解空间、方向和几何形状推理。为了模拟人类般的多感官感知，研究人员设计了使用特殊字符作为LLMs视觉导航和视觉铺设任务中丰富输入格式的2D网格世界。在这三个任务中比较了不同的模型（GPT-4、GPT-4V）和提示技术。研究结果显示， VoT提示始终促使LLMs可视化其推理步骤并指导后续步骤 。因此，这种方法在相应任务上取得了显著的性能提升。

图2：不同设置下的导航地图示例，房子的表情符号表示起点，办公室的表情符号表示目的地。

空间推理

空间推理指的是理解和推理物体之间的空间关系、它们的移动和互动的能力 。这种技能对于广泛的现实世界应用非常重要，如导航、机器人技术和自动驾驶。这些领域需要基于视觉感知和对空间维度的具体理解进行行动规划。尽管已经开发了几项任务和数据集来探究嵌入在文本中的空间语义，研究工作通常集中在空间术语如何在语言上结构化上。最近，通过将空间术语转换为逻辑形式并采用逻辑编程，在这些基准测试中取得了显著的成就和令人印象深刻的结果。这意味着在这些任务中取得优异成绩并不一定意味着大型语言模型(LLMs)真正理解了空间信息，也不提供它们空间意识的准确衡量标准。空间意识涉及理解空间关系、方向、距离和几何形状，这些都对于在物理世界中进行行动规划至关重要。为了评估LLMs的空间意识和空间推理能力，研究人员选择了一些测试导航和几何推理技能的任务，包括自然语言导航、视觉导航和视觉铺设。

自然语言导航

自然语言导航涉及通过随机漫步浏览底层空间结构，旨在识别先前访问过的位置 。这个概念受到先前关于人类认知的研究的启发，其采用了类似于沿着图结构进行随机漫步的方法。这个过程需要理解循环闭合，这对于空间导航至关重要。

视觉导航

视觉导航任务向LLMs展示了一个合成的二维网格世界，挑战其利用视觉线索进行导航。模型必须生成导航指令，以四个方向（左、右、上、下）移动，从起点到达目的地，同时避开障碍物。这涉及到两个子任务：路线规划和下一步预测，需要进行多跳空间推理，其中前者更为复杂。

视觉铺设

视觉铺设是一个经典的空间推理挑战。将这个概念扩展到测试LLMs在有限区域内理解、组织和推理形状的能力，从而增强了空间推理技能的评估。任务涉及一个带有未填充单元格和各种多米诺块的矩形，比如由四个对齐的方块组成的I-多米诺块。模型必须选择适当的多米诺块变体，例如选择I-多米诺块的方向，以解决问答谜题。

图3：带有掩码多米诺块的视觉铺设示例。该图未显示多米诺块的旋转和镜像变体。