智能推理新路径组合优化在生成式AI中的前沿探索

尽管LLMs在生成自然语言文本方面表现出色，但在推理任务中的表现却不尽如人意。推理任务需要模型具备更高层次的认知能力，包括逻辑推理、因果关系分析和战略规划等。然而现有的LLMs在这些方面的能力有限，主要表现在缺乏深度推理能力，LLMs在处理复杂推理任务时，往往依赖于简单的模式匹配和统计规律，缺乏真正的逻辑推理能力。易受幻觉影响，LLMs在生成文本时，有时会产生与事实不符或无意义的内容，这被称为“幻觉”现象。这在推理任务中尤为明显，因为推理任务需要模型生成高度准确和一致的答案。依赖人工提示，现有的许多推理方法，如链式思维（Chain of Thought, CoT）和自一致性（Self-Consistency），都依赖于人工设计的提示和示例，这限制了它们的泛化能力和自动化程度。

为了解决这些问题，纽约cosa Computing Inc.公司、NASA ARC量子人工智能实验室等多个组织的团队提出了一种新的框架——组合推理（Combinatorial Reasoning, CR）。该框架通过组合优化技术，自动生成用于推理任务的提示，从而提高LLMs在推理任务中的表现。CR框架的核心思想是将从LLM管道中采样的理由映射为二次无约束二进制优化（QUBO）问题，通过优化选择有用的理由子集，构建链式思维风格的提示。

本研究由来自多个机构的专家团队合作完成，涵盖了生成式AI、量子计算、数据科学和优化算法等多个领域。研究团队成员有纽约Icosa Computing Inc.公司成员Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于纽约的公司，专注于计算技术和人工智能的前沿研究与开发。团队成员在生成式AI和优化算法方面具有丰富的经验。NASA ARC的量子人工智能实验室的成员Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能实验室（QuAIL）致力于探索量子计算在人工智能中的应用。该实验室位于加利福尼亚州的Moffett Field，研究重点包括量子优化和量子机器学习。NASA ARC数据科学组的成员Ata Akbari Asanjan，NASA ARC数据科学组是NASA ARC的一部分，专注于数据分析和机器学习技术的研究与应用。团队成员在大数据处理和分析方面具有深厚的专业知识。USRA高级计算科学研究所的成员P. Aaron Lott, Davide Venturelli，USRA高级计算科学研究所（RIACS）与NASA合作，进行高级计算和人工智能领域的研究。研究所位于加利福尼亚州的Moffett Field，致力于推动计算科学的前沿发展。惠普实验室的LSIP（Large-Scale Integrated Photonics）部门成员Masoud Mohseni，惠普实验室的LSIP（Large-Scale Integrated Photonics）部门位于加利福尼亚州Milpitas，专注于大规模集成光子学和量子计算的研究。团队成员在物理学和计算科学方面具有丰富的研究经验。DataStax 公司的成员Alan Ho，>LLMs概述

大型语言模型（Large Language Models, LLMs）是基于深度学习技术的机器学习模型，专门用于处理和生成自然语言文本。与传统的语言模型相比，LLMs拥有极其庞大的参数量，通常达到数十亿甚至上百亿级别。这些模型通过在海量文本数据上进行训练，能够捕捉语言中的复杂模式和结构，从而生成高度连贯和自然的文本。

尽管LLMs在生成和理解自然语言方面表现出色，但在处理需要深度推理的任务时仍存在一定的局限性。为了提高LLMs的推理能力，研究人员提出了多种推理方法，其中最具代表性的是链式思维（Chain of Thought, CoT）和自一致性（Self-Consistency）。

1. 链式思维（CoT）

链式思维是一种通过在提示中加入中间推理步骤来增强LLMs推理能力的方法。具体来说，CoT方法通过手动标注的示例，展示了从问题到答案的推理过程。这些示例被用作提示，指导LLMs生成包含推理路径的回答。

CoT方法能够显著提高LLMs在推理任务中的表现，特别是在需要多步推理的复杂任务中。

局限性是CoT方法依赖于人工标注的示例，这不仅耗时耗力，而且这些示例可能无法泛化到不同类型的任务。此外，手动标注的示例数量有限，难以覆盖所有可能的推理路径。

2. 自一致性（Self-Consistency）

自一致性是一种改进的解码方法，旨在提高CoT提示的性能。与贪婪解码不同，自一致性方法通过在非零温度下收集多个样本，并选择出现次数最多的答案。这种方法基于这样一个直观的假设：推理问题可能有多条正确的推理路径，但错误的推理路径会导致不同的错误答案。

自一致性能够通过对多个推理路径进行边际化处理，生成更准确的答案。这种方法在处理复杂推理任务时表现尤为出色。

自一致性方法同样依赖于手动标注的示例，并且需要大量计算资源来生成和评估多个样本。此外，这种方法在处理具有高度不确定性的任务时，可能会面临性能瓶颈。

尽管这些现有的推理方法在一定程度上提高了LLMs的推理能力，但它们的局限性也显而易见。为了克服这些局限性，本文提出了一种新的框架——组合推理（Combinatorial Reasoning, CR），通过组合优化技术，自动生成用于推理任务的提示，从而进一步提升LLMs在推理任务中的表现。

图1：组合推理的工作流程。LLM对初始提示进行N次处理，并通过语义匹配过程对答案进行过滤，以产生具有不同原因的答案。该系综被映射到由Ising机器解决的QUBO问题中。最终解决方案确定了一组要添加到最终LLM调用提示中的原因，该调用将确定最终答案。

组合推理（CR）框架

CR框架的提出

随着生成式人工智能（Generative AI）和大型语言模型（LLMs）的快速发展，这些模型在自然语言处理任务中展现了强大的能力。然而尽管LLMs在生成自然语言文本方面表现出色，但在处理需要深度推理的任务时仍存在显著的局限性。现有的推理方法，如链式思维（Chain of Thought, CoT）和自一致性（Self-Consistency），虽然在一定程度上提高了LLMs的推理能力，但它们依赖于人工标注的示例，难以实现自动化和泛化。

为了克服这些局限性，研究团队提出了一种新的框架——组合推理（Combinatorial Reasoning, CR）。CR框架的核心思想是通过组合优化技术，自动生成用于推理任务的提示，从而提高LLMs在推理任务中的表现。具体来说，CR框架通过将从LLM管道中采样的理由映射为二次无约束二进制优化（QUBO）问题，并利用优化技术选择有用的理由子集，构建链式思维风格的提示。

CR框架的四个阶段

CR框架包括四个主要阶段：理由采样、QUBO映射、组合优化求解和最终提示创建。以下是每个阶段的详细介绍。

理由采样

在CR框架的第一个阶段，研究团队需要从LLM中采样理由。具体步骤如下：

通过上述步骤，研究团队可以得到以下集合：

这些计数是组合推理的基础，研究团队将使用它们来计算QUBO映射中所需的量。

QUBO映射

在CR框架的第二个阶段，研究团队将采样的理由映射为二次无约束二进制优化（QUBO）问题。具体步骤如下：

通过上述步骤，研究团队可以将采样的理由映射为一个QUBO问题，准备进行组合优化求解。

组合优化求解

在CR框架的第三个阶段，研究团队使用伊辛机和其他优化技术求解QUBO问题。具体步骤如下：

通过上述步骤，研究团队可以得到优化后的理由集合，为最终提示创建做好准备。

最终提示创建

在CR框架的最后一个阶段，研究团队根据优化结果创建最终的提示，并用于LLM的查询。具体步骤如下：

通过上述步骤，研究团队可以生成一个包含优化理由的提示，提高LLM在推理任务中的表现。

组合推理（CR）框架通过组合优化技术，自动生成用于推理任务的提示，克服了现有推理方法的局限性。CR框架包括理由采样、QUBO映射、组合优化求解和最终提示创建四个阶段，通过优化选择有用的理由子集，构建链式思维风格的提示，从而提高LLMs在推理任务中的表现。

实验结果与分析

实验设置

研究团队使用了GPT-3.5-turbo-0125作为实验所用的大型语言模型（LLM）。GPT-3.5-turbo是OpenAI开发的一系列模型之一，专门用于生成类人自然语言文本。该模型具有16,385个上下文窗口，并能返回最多4,096个令牌的输出。为了确保实验的公平性和一致性，研究团队选择了BIG-bench Hard（BBH）任务集进行评估。BBH任务集包含了一系列推理导向的问题，这些问题在过去对LLMs来说一直是具有挑战性的。

为了节省推理时间和成本，研究团队从每个子任务中随机抽取了50个问题，共计1350个问题，组成了一个评估集。在这个评估集上，研究团队将CR框架与以下几种方法进行比较：

在理由采样阶段，研究团队对LLM进行了N=210次采样，温度设为1，以收集足够的独立理由，并计算它们的分布和相关矩阵。相似度阈值ζ设为0.90，这一数值是通过对测试问题的经验确定的。在运行QUBO映射之前，研究团队使用Optuna框架对映射参数进行了调优，选择了最优的参数值。

图2：组合推理（CR）相对于其他方法的性能。人类和USP结果分别来自BBH和USP的出版物。USP在不同但可比较的LLM PaLM 2-M上进行评估。

实验结果

实验结果显示，CR框架在BBH任务集上的表现优于其他零样本方法。具体结果如下：

图3：具有线性CR和随机原因的二次CR（与正文相同）的基线分析。十个数据集的总体性能为二次CR:65.2%，线性CR:68.2%，随机：57.4%. 包括0次和0次CoT结果以供参考。根据0-发射CoT的性能对各个任务进行排序。

此外研究团队还进行了人工评估，验证了CR框架在每个阶段的效果。结果表明，CR框架通过优化显著减少了独立理由的数量，提高了提示的质量。

结果分析

通过对实验结果的分析，研究团队发现CR框架在不同任务上的表现具有以下优势和不足：

优势是

不足的问题是

CR框架通过组合优化技术，显著提高了LLM在推理任务中的表现，展示了其在生成式AI推理任务中的巨大潜力。然而，未来的研究仍需在计算资源优化、复杂任务处理和语义匹配改进等方面进行进一步探索，以充分发挥CR框架的优势。

研究总结

论文提出的组合推理（Combinatorial Reasoning, CR）框架，通过组合优化技术，显著提升了大型语言模型（LLMs）在推理任务中的表现。

CR框架通过将从LLM管道中采样的理由映射为二次无约束二进制优化（QUBO）问题，并利用优化技术选择有用的理由子集，自动生成用于推理任务的提示。这一方法减少了对人工标注示例的依赖，提高了提示生成的自动化程度。

通过选择有用的理由子集，CR框架能够构建链式思维（Chain of Thought, CoT）风格的提示，显著提高了LLM在推理任务中的表现。实验结果显示，CR框架在BIG-bench Hard（BBH）任务集上的平均准确率为59.88%，优于其他零样本方法。

CR框架能够适应不同类型的推理任务，通过优化选择最相关的理由，提高了提示的准确性和相关性。实验结果表明，CR框架在多个推理任务上表现优异，展示了其广泛的适用性。

通过在GPT-3.5-turbo-0125模型上进行实验，验证了CR框架的有效性。实验结果显示，CR框架在平均表现和排名上均优于其他零样本方法，证明了其在推理任务中的优势。

尽管CR框架在推理任务中表现出色，但仍有一些不足之处需要改进。例如，计算资源需求高、复杂任务表现有限以及语义匹配程序有待优化等。这些问题为未来的研究提供了方向和挑战。

CR框架在生成式AI推理任务中的应用前景广阔，未来的研究可以在以下几个方面进行探索和改进。

优化时间和准确性：进一步优化语义匹配程序，通过调整相似度阈值或采用更高级的语义匹配算法，提高QUBO映射的有效性。QUBO映射：优化目标函数的构建，增加对高阶相关性的考虑，研究图的属性和自旋玻璃的物理特性，以提高最终答案的准确性。组合优化求解器：探索使用更高效的求解器，如硬件高效的数字实现和量子求解器，通过混合策略进一步提高求解效率和准确性。

框架的泛化：将定理证明器（如Z3）集成到CR框架中，作为后处理步骤来消除冲突理由，结合概率求解器和确定性求解器的方法，在开放域问题上实现更高效的推理。与检索增强生成（RAG）的集成：将检索增强生成技术集成到CR框架中，通过语义搜索从知识库中检索相关信息，并将其作为上下文加入到理由采样过程中，提高推理的准确性和相关性。

在不同应用场景中的潜力：在金融领域CR框架可以用于风险评估、投资组合优化和市场预测等任务，通过自动生成推理提示，提高决策的准确性和效率。医疗领域：在医疗领域，CR框架可以用于疾病诊断、治疗方案推荐和医学研究，通过结合医学知识库和推理能力，提供更精准的医疗建议。法律领域：在法律领域，CR框架可以用于法律推理、案件分析和法律文书生成，通过自动生成法律推理路径，提高法律工作的效率和准确性。

组合推理（CR）框架通过组合优化技术，显著提高了LLM在推理任务中的表现，展示了其在生成式AI推理任务中的巨大潜力。未来的研究可以在优化时间和准确性、框架的泛化和不同应用场景的扩展等方面进行进一步探索，以充分发挥CR框架的优势。通过不断改进和扩展，CR框架有望在更多领域中实现广泛应用，为复杂推理任务提供更高效和智能的解决方案。（END）

参考资料：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/shenghuokepu/32710.html

智能推理新路径 组合优化在生成式AI中的前沿探索