利用大型语言模型进行因果推理:为什么知识和算法至关重要?

利用大型语言模型进行因果推理:为什么知识和算法至关重要?

长期以来,因果推理这种技能被认为是人类独有的,需要多年的经验才能开发出与多样化现实世界概念相关的复杂因果模型。

然而,随着人工智能即将达到人类某些能力的水平,人们对复制因果认知产生了极大的关注——这是高级泛化智能的标志。

考虑到人工智能系统缺乏在现实世界中的生活经验,它们能否推理因果关系呢?

从大型语言模型最近显示出的因果能力迹象来看,这是令人兴奋的。这些模型仅通过自我监督训练文本数据,当用自然语言文本描述的事件进行提示时,它们在评估语句对之间的因果关系时表现出类似人类的判断,准确率很高。

一些模型甚至可以确定必要或充分的原因,其能力堪比未经训练的人类。

这些进展展示了一个充满希望的未来景象,人工智能助手通过权衡潜在决策的复杂因果影响来为专业人士提供建议,社会政策在实施前考虑人工智能生成的影响评估,个人代理使用个性化因果模型根据个人背景和偏好量身定制建议。

然而,完全实现这一愿景需要面对纯基于语言模型方法的局限性。

真正可靠和多功能的现实世界因果推理需要紧密整合成多种模式——由语言模型提供的流畅推理能力,与结构化的世界知识和算法逻辑相结合,以实现大于各部分之和的强大因果智能。

本文解释了为什么将语言模型与知识图谱和专门的算法相结合对于可扩展的、实用的人工智能因果推理至关重要,这种推理可以解决歧义、理解上下文、动态推理,并最终通过机器驱动的因果智慧增强人类决策。如果你想了解更多关于语言模型的相关内容,可以阅读以下这些文章:
如何为你的业务选择合适的大型语言模型(LLM)
为什么大语言模型不适合编码?
语言模型在虚假信息活动中存在误用——如何降低风险?
苹果终于发布了MM1 — 一款可以在 iPhone 上运行的多模态AI模型

LLMs在正确的提示下,对各种因果任务表现出突出能力:

  • 因果方向性:GPT-3和PaLM在确定文本中描述的变量对之间的概率因果方向上达到了约97%的准确率。
  • 反事实推理:GPT-4在一个基准反事实预测任务上达到92%的准确率,接近人类的表现水平。
  • 必要原因识别:GPT-4在评估一个所述事件是否是另一个事件的必要原因方面达到86%的准确率。

类似地,LMPriors的工作证明了调整后的语言模型可以成功地从变量名称和描述元数据中学习,从而做出准确的因果判断:

  • 他们的方法在具有挑战性的因果图预测任务的数据集上达到89%的准确率,比基线方法有了显著提高。
  • 这展示了上下文元学习的能力——从元数据描述中学习因果关系。

此外,《语言模型作为不完美专家的因果发现》一文中提供的证据表明,LLMs仅通过预训练就积累了大量的因果知识:

  • LLMs能够准确地定位等价因果图中的边,与仅使用发现算法相比,可以将结构不确定性降低15-25%。
  • 模型的判断作为完善因果图的一个不完美但仍然有用的知识来源。

在多样化的推理任务中持续的高性能表现展示了LLMs通过接触文本训练数据中的模式而获得的可泛化的上下文因果学习技能。

它们无需额外培训即可快速适应,只需基于提示的指导即可将这些能力部署到人机循环因果分析中。

虽然大型语言模型隐含地包含从训练数据中提取的广泛的世界知识,但这些知识有几个缺陷,限制了它们的推理能力:

1.覆盖不全

LLMs只能获取到在训练数据中频繁提及的事实知识。这为长尾实体和因果关系留下了很少讨论的空白。知识图谱包含常见和罕见世界知识的结构化存储库。

2.无底层模式

预训练是非结构化的,没有实体、属性、依赖关系的有组织的表示。这使得在推理过程中回忆有关特定事件/实体的相关事实和关系变得低效。知识图谱提供基于模式的结构化记忆。

3.无验证源

LLMs没有依据来验证他们推断的事件、主体和上下文因素之间的关系是否在经验上有效。与知识图谱连接可以根据已知事实进行验证。

4.缺乏上下文

对LLMs的提示往往没有详细说明相关细节。然后LLMs会做出不合理的假设。利用丰富的知识图谱提供缺失的环境/历史细节,以便做出明智的判断。

5.不保证一致性

LLM做出的孤立的因果判断在推理同一场景时可能在逻辑上相互矛盾。知识图谱使用统一的本体来强制执行决策的全局逻辑一致性。

通过解决这些方面的问题,整合知识图谱从根本上将LLM的能力从浅层模式识别发展到强大的结构化推理——从而能够牢固地基于复杂的现实世界动态进行推断。这种转变对于可部署的人工智能助手来说至关重要,因为它可以跨上下文进行可靠的推理。

此外,未增强的LLMs在多步因果推导和系统性考虑潜在混淆因素方面存在困难。他们的推理是局部的,而不是针对全局因果一致性进行优化。算法必须补充语言模型的灵活智能。

因果发现算法可以处理观测数据以揭示因果关系并构建图形模型。其他算法专门用于干预推理,预测行动的效果。有些算法根据文本中指定的效用和偏好优化干预措施。

未经增强的语言模型在复杂的多跳因果推断方面表现不佳。即使可以访问知识图谱,要发现跨越数十个真实世界事件/实体的因果链,也需要结构化算法。

算法系统地遍历因果路径,将局部LLM的判断拼接成一个全局一致的叙述。它们还通过公理推理正式验证决策——证明判断在逻辑上遵守本体论约束。

在包含数十亿个实体和关系的海量图中详尽地提示LLM判断是不可行的。算法通过优化查询来解决这个问题——通过信息搜索启发式导航图,而不是盲目探索。

专门的子图识别算法只提取与所讨论的事件紧密耦合关系的相关图片。这减少了推理搜索空间,最大限度地减少查询以提高效率。

如果没有算法,跨多领域知识图谱的表示和决策很容易出现矛盾。算法检测并协调这种不一致,确保结论在逻辑上保持一致。

他们还完成部分知识——当事实知识是不完整时,使用图形分析插入可能的推论。无论知识图谱大小或上下文特异性如何,这都保持了输出的稳定性。

最近的研究,(例如使用大型语言模型的高效因果图发现),表明虽然LLMs表现出因果推理能力,但他们的方法不具有良好的可扩展性。先前的方法详尽地查询了LLM 中的每对变量,需要二次时间复杂度。

为了解决这个问题,他们引入了一种线性时间算法,该算法利用LLM在广度优先搜索框架内的判断来构建因果图。这展示了算法如何优化LLM的使用以提高效率。

这项工作的关键创新是使用广度优先搜索(BFS)算法通过查询LLM来迭代构建因果图,而不是详尽地询问每个变量对(这需要二次的时间复杂度)

具体地说:

  • BFS算法首先提示LLM识别没有原因的“根”变量。这些变量被添加到队列中。
  • 然后队列中的每个变量都会被扩展—LLM会被提示列出受该变量因果影响的变量。
  • 除非它们形成循环,否则这些变量将被添加到图和队列中进一步扩展。
  • 这个过程一直重复,直到所有变量都被访问完为止。

因此,在每个阶段,算法都会提示LLM对单个变量的影响进行集中判断,而不是用成对关系查询来压倒它。

关键效率来自于BFS访问顺序,确保每个变量仅被查询一次其效果。这将查询次数从O(N²)降低到O(N),对于N个变量来说是一个显著的计算效率提升。

因此,从本质上讲,该算法成功地优化了LLM因果判断的使用——以一种可扩展的方式通过局部扩展构建完整的图,这是通过蛮力逐对提示无法实现的。

大型语言模型已经清楚地展示了因果推理的突出能力,从文本数据中感知出模式,并将其转化为描述事件的因果关系评估。然而,真正复制灵活、合理的人类因果认知需要的不仅仅是统计模式识别。

然而,对于更复杂的现实场景,会出现额外的限制。LLMs缺乏人类融入到推理中的广泛背景知识——理解上下文因素如何相互关联并影响结果。他们的判断可能在局部是一致的,但在全局上却是不一致的。

知识图谱通过提供理论基础来解决这些问题。它们提供了关于事件、实体及其依赖关系的缺失的上下文细节——代表了现实世界的因果机制。然后,算法在这个图上优化因果推理,加强逻辑的一致性。

知识图谱和算法的结合:

  • 通过减少冗余查询,使LLM推理更具可扩展性
  • 优化多步因果链,而不是孤立的判断
  • 通过验证局部决策来保持全局一致性
  • 为上下文判断提供现实世界的模式

知识将图的符号严谨性与LLM的流动智能结合在一起。算法则桥接它们以提升性能。这种共生整合通过在现实因果系统中赋予判断意义来增强上下文学习本身。

因此,知识图谱和算法不仅放大了LLMs,而且实际上优化并将它们的能力置于上下文中,以克服可靠因果推断的可扩展性和一致性问题。

它需要将语言模型的流畅推理与结构化的现实世界知识和因果算法紧密结合。知识图谱提供了表示已知因果机制的图解记忆。算法处理逻辑推理、推断和优化以保证一致性。

总之,它们共同规避了语言模型的固有局限性——将其基于现实情境以确保局部判断与全局一致,提供缺失的上下文以消除假设,并正式验证决策。这个整体协同作用赋予了微妙的可解释智能以更大的力量。

这种统一的方法可以引领人工智能的下一步发展——响应式助手不仅可以预测结果,还可以提供策略建议,量化替代选择的影响,并解释与复杂相互关联的世界事件相关的因果链。

将这些模式整合到系统中进一步促进了早期因果认知研究者提出的赋予机器因果想象力愿景。它们促使我们想象一个未来,其中因果智慧渗透到公共话语中,政策从系统化的影响审计中产生。

随着集成架构所体现的增强智能大于各个部分的总和,因果推理不再是人类认知中不可触及的支柱,而是在可解释的人工智能方面的一个切实突破,等待着推动行业、学术界、政府和社会的发展。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anthony Alcaraz
翻译作者:文玲
美工编辑:过儿
校对审稿:Jason
原文链接:https://blog.gopenai.com/leveraging-llms-for-causal-reasoning-why-knowledge-and-algorithms-are-key-d1928b7051c7