预期自由能作为个体选择的结构性架构
Part A Expected Free Energy as a Structural Architecture of Individual Choice
https://zenodo.org/records/18009668?utm_source=chatgpt.com




摘要
本文构建了一种基于预期自由能(EFE)最小化的变分决策架构。行为被建模为在单一贝叶斯生成架构中,选择那些能保持预期结果、偏好先验、认识价值、时间范围和身份稳定性之间一致性的策略。因此,理性被重构为变分相干性(预测与偏好的内部一致性),而非期望效用最大化。
在此框架内,经典期望效用理论作为数学上精确的极限机制出现,其前提是明确陈述的嵌入条件(包括相关比较集上的熵中性、零认识权重和零复杂度成本);而熵异质性、认识估值、时间精度和复杂度刚性则产生了系统性的决策结构,这种结构通常无法由标量期望效用泛函来表示。
在本文中,我们形式化地: (A) 推导了预期自由能坍缩为期望效用的条件; (B) 展示了类前景理论的不对称性、理性疏忽类型的信息正则化以及身份保持的刚性是作为单一目标的内部机制而产生的,而非行为的附加项;以及 (C) 证明了决策机制对应于预期自由能景观中的吸引子,其几何结构支持稳定性、滞后和分岔。
数值分析(在明确定义的任务环境中进行的说明性模拟)表明,持续性、突变的机制转换和路径依赖是从参数化精度结构中合乎规律地产生的,无需事后行为假设。
最后,我们提供了对实证规范的实现层面审计。该框架的超参数具有独特的行为特征,并且在原则上,在预先指定的可分离条件下是局部结构可识别的;交叉拟合诊断表明,在具有留出评估的受控数据生成过程中,当缺乏额外结构时,完整的 EFE 架构在样本外是可被拒绝的,同时仍能区别于嵌套限制和匹配的理性疏忽替代方案。
其结果是一个紧凑、数学显式且实证可检验的决策架构,在此架构中,预期自由能并非取代经典理论,而是对它们进行定位。它指明了这些理论在何处有效、在何处失效以及原因何在。通过这样做,预期自由能为关于选择的累积性工作提供了一个结构性的、可证伪的基础。
第一部分:引言
决策科学的一个核心目标是理解人类为何做出他们所做出的选择。在经济学及大部分行为决策研究中,经典决策理论以期望效用理论为基础,将理性选择定义为在主观信念分布下最大化期望值(Savage, 1972)。尽管该理论具有奠基性地位,但数十年的实证研究表明,它既不能预测,也无法简洁地解释现实决策中的许多规律性现象:损失厌恶与参照点依赖(Kahneman 和 Tversky, 1979);主观概率的系统性扭曲(Tversky 和 Kahneman, 1992);信息回避(Golman, Hagmann 和 Loewenstein, 2017);冲突情境下的决策延迟(Tversky 和 Shafir, 1992);现状维持偏差(Samuelson 和 Zeckhauser, 1988);习惯与成瘾动态(Bernheim 和 Rangel, 2004);跨时间与情境的偏好不稳定性(Lichtenstein 和 Slovic, 2006);以及在社交情境中,社会偏好与公平动机(Fehr 和 Schmidt, 1999)。对此,该领域已分裂为多个专门化的解释框架,正如 Dhami (2016) 等人所指出。例如:前景理论(Kahneman 和 Tversky, 1979)、身份经济学(Akerlof 和 Kranton, 2000)、理性疏忽(Sims, 2003)、信息论控制(Tishby 和 Polani, 2011),以及更近期出现的主动推理和计算神经科学中的变分方法(Friston, 2010; Parr, Pezzulo 和 Friston, 2022)。尽管每个框架都捕捉到了行为中的重要结构,但据我们所知,目前尚不存在一个共同的决策函数,能够将这些结构作为在明确限制条件下的极限情况包含其中。
这种碎片化带来了两个主要后果。首先,经验科学积累了一个越来越庞大的“行为异常”目录,这些异常现象似乎需要各自独立的心理学解释,而不是作为一个共同决策原则的极限情况出现(例如,参见 Glimcher, 2011 的批评)。其次,大多数模型将偏好、信念、推理成本和身份约束视为各自独立的原始概念(Fudenberg, 2006),需要针对每一个新发现的异常现象给出具体的心理学解释。虽然这种灵活性扩大了解释范围,但也产生了难以解释、跨模型关联(Pitt 和 Myung, 2002)或进行经验识别的参数集。目前所缺乏的,是一个原则性的解释框架,能够说明决策模式为何不同,它们的质性属性如何产生,以及在何种条件下一种模式会转变为另一种模式,而无需为每种现象引入特定于模型的行为原始概念。
主动推理和期望自由能最小化提供了一个强有力的替代视角(Friston 等人,2013)。它们将个体描述为在关于自身及其环境的生成模型下,最小化期望惊讶(Friston 等人,2015)。形式上,这将对策略的选择重新定义为在生成模型下的推理,该生成模型以共同的概率度量编码了偏好、信念以及预期的信息后果(Sajid 等人)。然而,主动推理文献的大部分内容主要集中在知觉、神经实现或说明性模拟上(例如,Friston, Parr 和 de Vries, 2017)。因此,选择中偏好表达的经济学与行为结构、信念修正与工具性收益之间的权衡,以及决策模式随精度变化而发生转变的方式,在以神经科学为中心的论述中通常仍是隐性的(但可参见 Sajid 等人,2021)。因此,文献中尚未标准化一个明确的、以生成模型编码偏好的决策理论结构:一个在数学上严谨、行为上可解释、并在信息获取和可观察选择层面上可经验检验的结构。

本文的核心贡献在于表明,期望自由能提供了一种变分决策架构,在该架构下,期望效用、理性疏忽式的信息正则化、基于身份的刚性,以及类前景理论的局部不对称性,都表现为同一决策架构内数学上定义明确的极限情况。本文进一步展示了不同的行为“表型”如何对应于期望自由能图景中定义明确的区域,从而能够以精确的数学术语表述决策模式以及策略选择中的质性转变。随后,本文提供了数值示例,显示系统性地变化 Ω如何引发策略选择和持续性现象(包括锁定和类似恢复的动态)中的质性转变。最后,本文给出了明确的识别结果,并提出了可经验实施的实验设计,这些设计能够估计 Ω,并基于跨情境约束和动态预测,将该框架与前景理论及其他主流决策模型区分开来。
通过将决策模式置于一个共同的变分原则之下,本文重新将理性选择定义为与关于自我及环境的生成模型的一致性。这种重新定义并未取消效用或偏好,而是将其嵌入一个概率架构中,该架构将工具价值、信息价值和信念稳定性置于一个共同的度量标准上。通过这样做,本文提供了一个连贯的形式化桥梁,连接了经济学、认知科学和计算神经科学,同时在附录C所述的分离性和可识别性条件下,产生了具体、可检验的预测。由此,它为一个统一的形式化结构提供了整合基础,用于推导、比较和实证区分主要的决策理论。
重要的是,本文并未否定期望效用,而是将其识别为一个更广泛变分结构中数学上定义明确的极限情况。正如我们将要证明的,在假设集 3.2 的结构条件下,当认知激励、信息结构或身份刚性被抑制时,期望自由能会退化为期望效用。然而,当这些要素成为环境的结构性特征时,期望效用表示作为一种在维持的信息结构下的策略排序表示,在形式上是不完整的,而不仅仅是描述上的不准确。因此,本文的一个贡献在于,明确了效用最大化在表示上具有充分性的结构条件,以及其不具有充分性的条件。在这个意义上,本文的目标并非取代经典理论,而是将其定位,精确地指明它在哪些情况下是正确的,在哪些情况下是沉默的,以及为何如此。
第2部分:变化的决策架构
本节介绍支撑本文其余部分的形式化决策架构。其目标是形成一个原则性、紧凑且可解释的表述,该表述同时能够:(i) 推广经典的期望效用理论,(ii) 包含认知或信息寻求动机,(iii) 考虑信念修正所带来的认知或身份成本,以及 (iv) 具有明确定义的时间结构。其目的并非用新的原始概念取代这些要素,而是将它们嵌入一个源自变分原则的概率决策函数中。该框架是主动推理和贝叶斯大脑理论中已知变分原则的决策理论实例化,旨在解决行为经济学和决策科学中的核心问题。

因此,偏好通过关于理想观测的先验信念进入模型(Friston et al., 2012; Pezzulo, Rigoli 和 Friston, 2015)。形式上,这等价于用概率术语对效用进行重新参数化,而不是实质性地消除偏好原始概念。因此,偏好状态或结果就是那些如果被体验到就不会令人惊讶的状态或结果(Friston et al., 2013)。因此,决策被框定为选择那些最大化达到目标状态概率的策略,同时在探索和对行动序列的先验偏倚之间进行权衡(Attias, 2003),而不是选择最大收益(Tishby 和 Polani, 2011; Friston et al., 2013)。
策略 π∈Π使用期望自由能原则进行评估。直观上,期望自由能聚合了三种不同的驱动力:(i) 获得与偏好一致的结果,(ii) 通过信息增益减少不确定性(Friston et al., 2015),以及 (iii) 避免对根深蒂固的信念或与身份相关的先验进行代价高昂的修正(Parr, Pezzulo 和 Friston, 2022)。
关键在于,这些组成部分是在同时编码偏好、信念和不确定性的生成模型下,作为变分分解中的标准项出现的。因此,为了最小化未来的惊讶,智能体同时进行以下权衡:使结果与偏好对齐、解决关于隐藏原因的不确定性,以及避免与其现有生成模型产生过大偏离。这里的必要性是形式化的:它源于变分界的数学结构(MacKay, 2003),而非关于动机的经验假设。具体而言,上述各项源自变分分解,因此将它们的权重设为零对应于将决策架构限制在一个子区间内,而非推导出一个替代性的决策原则(Friston et al., 2015)。因此,它们在行为上的相对影响并非先验固定的,而是系统地依赖于超参数 ΩΩ以及决策环境的结构。这一依赖关系将在第 3 节中形式化地展开。在全文范围内,ΩΩ被视为在一个决策问题内部是固定的(即,对于固定的生成模型规范及可接受的策略集合 ΠΠ)。在不引起混淆的情况下,我们将策略目标 G(π)写作 G(π;Ω)的简写。

第一项随后量化了预测结果与偏好结果之间的期望散度。如果一个策略预计会产生与智能体偏好不一致的观测值,它将受到惩罚。第二项是关于潜状态的期望信息增益(Lindley,1956)(Cover 和 Thomas,2006;Friston 等人,2015)。由于它以负号进入,最小化 G(π) 有利于具有更高期望信息增益的策略。前两项共同对应于预期自由能的标准语用和认识成分(Friston 等人,2015)。

该框架的一个关键特征是,这些行为力由一个紧凑、可解释的超参数向量(Friston 等人,2023)系统地调节,下文记为 Ω。这些参数并不向泛函中添加新项,而是按构造缩放已存在的分量。
随后通过最小化预期自由能来选择策略(Friston 等人,2016)。这使得理性选择被重构为变分一致性:一个策略在最小化预测结果与偏好结果之间的期望散度,同时在不确定性降低的价值与信念修正的内部成本之间进行平衡的范围内是理性的(参见 Friston 等人,2016)。
建模文献中的经验基础:尽管该架构是从第一原理推导出来的,而非通过因子提取得到,但其认知成分和工具性成分尤其在受控行为环境中已获得具体的经验支持(Gottlieb 等人,2013;Gershman,2019a)。认知项通常是在复现人类探索性行为和主动信息寻求的模型中所必需的(Wilson 等人,2014)。在需要定向探索的任务中(Kaplan 和 Friston,2018),理论上预测,忽略认知价值的模型将无法捕捉到这种行为(Schwartenbeck 等人,2013)。复杂度项与通常在工作记忆限制(Parr 和 Friston,2017)和习惯形成(Parr,Pezzulo 和 Friston,2022)背景下讨论的持久性和惯性现象相一致,并且可以将其形式化。它捕捉了根深蒂固的行为模式的持续性,在此被解释为身份保护性认知以及更新深层先验时的惯性。最后,工具性项涵盖了整个经典效用理论和强化学习(Sutton 和 Barto,2018),作为衡量认知偏差和复杂度偏差的基础性基线。这些发现支持将这些组成部分视为行为上可区分的维度,而非可任意互换的调参参数(Friston 等人,2015;Parr 和 Friston,2019)。
遵循主动推理文献中的经典分解(例如,Friston 等人,2015;Parr,Pezzulo 和 Friston,2022),为了分析清晰起见,这些驱动力可以规范地分解为四个数学上不同的项。对于任何可接受的策略 π:

上述分解提供了一个结构性的视角,该视角将在第 3 节中反复出现:经典理论对应于这样一个参数区间,即上述一个或多个组成部分变得中性、退化或消失。
2.3 超参数空间 Ω
如前所述,该框架的一个关键特征是,上述行为驱动力由一个紧凑、可解释的超参数向量 Ω 进行系统性调节,Ω 定义为:



λ捕捉了深层信念、模型或构成身份的先前所固有的刚性。它调节了深层先验在多大程度上抑制对新出现的、矛盾的证据的吸收。较高的 λ会对信念修正施加惩罚,使得智能体更倾向于那些能维持根深蒂固的表征承诺(深层先验/指定的刚性参数)的策略,即使这些策略需要付出工具性成本。当 λ较低时,智能体能够灵活地根据新证据调整信念,相对轻松地重新配置身份和内部模型。在神经生物学上,λ可以与精度控制(Feldman 和 Friston,2010)以及常在认知控制框架下讨论的自上而下的约束机制(Miller 和 Cohen,2001)联系起来。在行为层面,λ支撑了诸如身份保护性认知(Akerlof 和 Kranton,2000)、信念持久性(Nickerson,1998)以及习惯性或病理性行为模式的持续性(Wood 和 Neal,2007)等现象。λλ是反映稳定的特质、缓慢适应的状态,还是制度性约束,这一点在本节中不作明确界定,将在第 5 节中讨论。
T表示有效的时间跨度。短视的智能体会对近期结果赋予较大权重,而忽略长期偏离和认知收益。具有长远眼光的智能体会纳入延伸的时间后果,因此长期期望惊讶会显著影响当前的选择。该参数形式化了熟悉的时间效应,例如冲动性、跨期不一致(Frederick, Loewenstein 和 O'Donoghue,2002),以及短期主义和对未来后果的差异性估值(Bellman,1957;Friston, Parr 和 de Vries,2017)。
这些参数共同将决策空间划分为性质不同的多个区域。传统理论会为不同的行为分配独立的心理机制,而本框架则将它们视为在 Ω空间中的结构性移动。
所提出的架构意味着对理性进行一种特定的重新定义。智能体在表现出损失厌恶、信息忽视、身份保护性稳定或成瘾般的持续性时,并非先验地变得非理性。这些模式是处于 Ω不同区域的结果。因此,传统经济学中的“异常”成为参数区间的特征,而非对理性原则的违反。
因此,该表述仍然是完全贝叶斯式的(Parr 和 Friston,2019;Parr 和 Pezzulo,2021)。偏好是先验,行为是推断,行动选择是选择那些预期能使未来体验与智能体关于自身及其环境的生成模型保持一致的策略的问题(Friston 等人,2013)。这是一个“as-if”的计算性论断,它抽象掉了关于审慎意识或规范性辩护的陈述。偏好、不确定性、身份和时间结构被整合为一个共同变分决策架构的组成部分。
这带来了两个好处。在理论层面,它提供了一种共同的形式化语言,经典理论在其中表现为极限情况。在经验层面,它允许精确的识别,因为观察到的行为在不同任务中的变化揭示了 Ω的底层配置。
接下来的第 3 节将通过推导形式化的还原结果,并展示已有的决策理论如何作为该架构内的特例出现,从而使这些论断精确化。
第 2 节将变分决策架构发展为一个关于个体选择的紧凑、可解释且完全贝叶斯的描述。在转向第 3 节对其形式化属性进行探讨之前,有必要明确本文论断所处的描述层级。这有助于澄清所断言的内容,并避免赋予该框架无意承载的雄心。
该框架为子节 3.9 中形式化的、一个广泛且有明确边界的一类正则化贝叶斯控制架构,在单个决策者层面上提供了一个结构完整性结果。它关注的是行为的计算结构:偏好、认知激励、刚性以及时间精度如何被编码在单个智能体的生成模型中,并整合为一个支配策略选择的单一决策函数。
需要注意的是,本文中所有的还原与涵盖论断都是关于在附录 A.0 中由可行性与存续性限制定义的可接受域

上的表示的主张。它们并不声称在那些将终止或破产行动明确视为可接受且赋予正权重的策略空间上具有等价性。
因此,本文的贡献在于一个结构嵌入性结果,其意义在于将多种不同的决策规则定位于一个单一的、数学上连贯的目标函数中。经典理论在明确且具有限制性的结构条件下得以恢复,这些条件对应于参数空间 ΩΩ的低维子集。
因此,在本 A 部分中,变分架构被解释为一个计算层面的刻画,而非关于有意识思考的主张。策略空间 Π表示由智能体的生成模型所支持的行动轨迹库,包括习惯性的、情感性的、启发式的以及反射性的反应。同样,感知和信念被建模为概率性的且易错的,允许非真实的表征、认知上的不完整性,以及对可用选项的有限意识。因此,期望自由能是一个计算性的决策原则,旨在将反思性行为和直觉性行为都包含在同一个形式体系内。
重要的是,该框架并不声称从第一原理推导出偏好、价值或身份。偏好作为关于结果的先验信念进入生成模型,这在形式上等价于引入一个效用函数。因此,其进步在于将效用置于与认知成本和复杂度成本相同的信息尺度上,从而允许在单个变分目标中处理这些权衡。
此外,本文并非旨在解释身份和叙事得以构成的历史或解释性过程、特定先验、价值或身份的规范性辩护,或是对体验的现象学描述。它也不试图建模那种连贯性彻底崩溃、无法在行为时间尺度上归因于任何稳定生成模型的情况。这些领域可以将本框架作为一个微观层面的决策架构、一个边界条件,或一个解释的对象。然而,它们需要额外的概念资源,这些资源严格超出了 A 部分的范围。因此,本文的分析范围仅限于个体层面。
接下来的结果刻画了单个智能体的内部决策架构:其生成模型如何构建行为,以及不同的决策模式如何由 Ω的变化而产生。
尽管当前分析限于个体决策问题,但环境并未被假定为非社会的。在多智能体情境中,其他智能体的行动和推断出的状态会进入该智能体的结果空间和潜在状态空间,而无需采用本文所发展之外的任何额外决策原则。一旦多个这样的架构相互作用,集体动态问题便会作为既有框架的自然延伸而出现。因此,这些问题将在 B 部分中另行讨论,分析共享或部分共享的生成环境下的群体内部动态。C 部分将把考察扩展到跨群体的策略互动。D 部分则考虑先验、价值和身份在历史中形成并在规范上受到争议的构成性维度和解释性维度。综合起来,A 至 D 部分构成一个闭环的架构性框架。
因此,本 A 部分的当前贡献应被理解为建立了一个微观层面的决策基础,而非一个完整的行为理论。其论断刻意采用模块化形式,说明给定一个生成模型后,从变分架构中可以推导出什么,而非这些模型是如何在社会、发展或演化层面上产生的。
第 3 节现在将刻画该架构的数学连贯性、行为含义以及结构普遍性。在明确了这一范围之后,我们现在转向第 2 节中引入的框架的形式化属性。
第 3 节:形式性质、表示结果与一般性
第 2 节介绍了变分决策架构,其中偏好 (γp)、认识激励 (γo)、信念刚性 (λ) 和时间结构 (T) 可以在预期自由能中联合表示(Friston 等人,2015;Parr 和 Friston,2019),并由超参数向量 ΩΩ 参数化。第 3 节现在发展该架构的形式性质,并阐明现有决策理论作为特例出现的精确数学意义。
我们首先证明,在维持的正则性假设下,预期自由能最小化定义了一个数学上适定的决策规则。然后我们证明,在可识别的结构性限制下,经典理论作为可容许域 Π∗上的精确特例出现,并且在同样清晰的结构性松弛下,这些等价性会破裂。与 (Amari, 2016) 一致,目标是进行结构性定位,以识别变分空间中经典表示有效的精确区域。目的是将现有理论置于一个具有显式边界的共同信息结构上 (Amari, 2016),扩展主动推理文献中已经存在的解释(另见 Parr 和 Friston,2019)。
我们通过逐步松弛经典表示作为极限情况成立时的结构性限制来构建这一分析。我们从期望效用理论 (EUT) 的极限情况开始,其中智能体被高度理想化,且考虑成本被视为零 (Savage, 1972)。然后我们引入信息约束(理性疏忽)和结构性先验(身份经济学)来定义全局行为机制,建立由复杂度诱导的全局机制结构。最后,我们考察这些机制的局部几何,以恢复前景理论特征性的不对称梯度。
每个主张都基于显式的假设集和附录 A.0 中陈述的现行正则性条件,并在附录 A 中得到形式支持。本节中的所有等价性主张在显式陈述的可容许策略子集上都是精确的,并且以相应的假设集为条件。它们仅在这些陈述的结构性假设下成立。图 1-8 是在附录 B 中发展的分析几何的概念性示意可视化。它们说明了与形式结果一致的机制结构和比较静态几何。然而,它们不是数值模拟或拟合模型。验证这些结构的数值说明在第 4 节中单独提供。复制材料可在本文的在线补充材料中获取(另见附录 D)。
3.1 决策规则、适定性与正则分解

为了确保分析上的可处理性,我们施加了温和且标准的结构性假设,这些假设保证了数学连贯性,而不事先优待任何特定的决策理论表示。

解读: 在前述存在性和连续性条件下,该变分架构在广泛的一类环境中产生了确定且可解释的选择预测。2.2 小节引入的正则分解确保了后续结果能够分离出选择性地中和或激活特定结构分量所产生的行为后果,而不是引入新的基本要素。诱导出的决策动力学表现出稳定不动点和吸引子结构的形式条件在附录 B 中有详细说明。3.2 小节现在直接建立在这一基础之上,通过确立预期自由能何时坍缩为经典期望效用理论,以及何时不发生这种情况。
3.2 还原为作为极限表示的期望效用理论
本小节的目的是明确标量期望效用表示充分所需的确切结构条件。这里的任务是使这种等价关系精确化,并确定其成立的结构边界。回顾策略选择定义为


这些条件定义了没有比较不确定性结构、没有学习内在价值、且没有信念修正结构成本的环境。在此类环境下,只有工具性偏好分量保持有效。期望效用理论,正如 von Neumann 和 Morgenstern (1944) 以及 Savage (1972) 所形式化的那样,随后被恢复为预期自由能最小化的一个精确极限情况,当认识激励、不确定性结构和复杂度惩罚在行为上是中性的时。

解读:在假设集 3.2 的结构条件下,预期自由能在可容许域 Π∗ 上坍缩为期望效用,且没有额外的结构在行为层面保持有效。这种等价性是结构性的,因为它定义了一个精确的边界。在熵齐性、认识中性和无复杂度的环境中,经典效用最大化在形式上是充分的。在此边界之外,它通常在信息上是不完整的,因为决策问题的额外结构特征变得具有行为后果,且无法在标量期望效用泛函中表示。这对 3.3 小节至关重要,因为放松熵齐性并非在宽泛的意义上“增加现实性”。相反,它改变了模型必须能够表示的内容。
如图 1(景观坍缩)所示,无约束机制下的 EFE 景观展现出结构化的拓扑,具有由偏好、预测不确定性、认识梯度和刚性共同塑造的多个吸引子(图 1A)。在假设集 3.2 下,这种几何结构发生坍缩:认识项、熵结构项和复杂度项消失,产生一个单一的、平滑的、由偏好驱动的吸引域(图 1B)。因此,期望效用对应于更广泛变分目标中的这一受限子空间(Friston 等人,2015)。因此,经典模型主要在更广泛几何结构的一个空间受限、平坦化的区域内提供准确的描述。

3.3 熵异质性下的表示崩溃
在本小节中,我们现在确定定理 1 中建立的等价性崩溃的精确表示边界。一旦预测熵在策略之间有所不同,即使保持相同的结果效用映射不变,期望效用也不必在表示上等价于预期自由能行为。其结果是存在性的而非普遍性的,因为它识别出了表示等价性失效的环境,而并未声称这是一个全局不可能定理。为此,我们施加:

相应地,我们现在通过放宽 (EU1) 来允许预测熵在策略之间变化,同时保持相同的偏好嵌入 P(o) 不变,并考察期望效用表示是否仍能恢复由 EFE 诱导的排序。

解读:命题 1 识别出一种结构性表示分歧。期望效用仅依据标量期望收益来评估策略,而预期自由能则是通过分布几何来评估策略,该几何通过熵项 H(Q(o∣π)) 将结果离散度视为一个核心分量。在存在跨策略预测熵差异的情况下,这两个标准诱导出了截然不同的决策面,且不必就策略排序达成一致。这解释了为何传统上被标记为异常的行为(例如,模糊性效应、探索偏好、好奇心估值、基于方差的逆转)在此处不需要辅助心理学假设(Gilboa 和 Schmeidler,1989;Camerer,1998)。它们可以被解释为结构化不确定性与非零 γp(以及在存在时,γo)相互作用的反映。
这种分歧在形式意义上是几何性的。图 2(分岔图)阐明,随着环境偏离熵齐性,作为期望效用特征的单一稳定吸引子失去了全局最优性。多个稳定吸引域随之涌现,行为开始追踪环境日益丰富的信息结构。因此,经典效用表示只有通过跨环境重新定义效用,而非通过单一稳定泛函,才能模仿这种行为的局部切片(参见附录 B.3 以获取形式拓扑分析)。

3.4 信息的价值与定向探索
按照标准公式表述的经典期望效用最大化者属于被动学习者(Lindley,1956;DeGroot,1970)。如果信息是免费的,他们会处理信息,但标准效用函数不包含寻求信息的内在驱动力。相比之下,搜索理论(Stigler,1961)、最优实验文献(例如,Lindley,1956)以及主动推理中的理论公式(Schwartenbeck 等人,2013)认识到,智能体会主动探索以减少不确定性。在预期自由能中,这种驱动力内生于决策泛函本身。认识项(−γoIG(π)因此明确奖励那些能够解决关于环境状态不确定性的策略。这为与工具性偏好并行运作的好奇心和探索提供了一个形式基础。


图 3(认识梯度)阐明了这种几何结构:决策面纯粹沿着不确定性降低的梯度倾斜,使得策略流仅由认识价值决定。

3.5 理性疏忽作为信息正则化
理性疏忽通常作为对期望效用的行为修正被引入,其中智能体在显式信息约束下最大化后者(Sims,2003)。在本框架内,它表现为一种内生的极限机制。当 λ 加权的复杂度项在与信息处理相关的表征维度上变得在行为上有效,而认识奖励和熵差异保持中性时,它便涌现出来。因此,它将决策者视为有限的信息处理者,这些处理者最大化扣除基于信道容量定义的信息成本泛函后的期望效用净值(Sims,2003;Cover 和 Thomas,2006)。
在提出的变分架构内,该优化问题作为信息的工具性价值与 λλ 加权的信念更新复杂度成本之间相互作用的特化,内生地涌现出来。因此,理性疏忽表现为将信息处理视为有代价的这一行为表现(Sims,2003;Sims,2010;Matějka 和 McKay,2015;Maćkowiak,Matějka 和 Wiederholt,2023)。
在标准的期望效用公式中,这种成本通常是显式添加的(Sims,2010)。在预期自由能公式中,相应的结构已经在内部存在。当复杂度源于对灵活潜状态表征的信念更新,而非源于偏离深层或与身份相关的先验时,λλ 加权的复杂度项充当信息处理惩罚。这一区分在 3.6 小节中变得至关重要。鉴于上述情况,我们通过以下假设集来表征生成模型内信息增益的结构潜力:

在这些约束下,认识激励被中和,且熵不会对策略选择产生差异性结构化影响。唯一剩余的非中性梯度是由作用于灵活信念表征的 λλ 加权复杂度项产生的。因此,复杂度项作为一种内部信息成本获得了行为意义。这正是理性疏忽模型被定义其中的结构包络。由此可得:

解读:有限认知构成了参数空间中一个定义明确的区域,而非对理性的偏离。那些对表征复杂度进行加权的智能体表现得像理性疏忽智能体,并非因为它们偏离了理性。它们之所以如此,是因为其生成架构使得信念维持在容量受限的表征维度上代价高昂。在这个精确的意义上,如果世界具有假设集 3.5 中规定的信息结构,那么理性疏忽就是可容许域 Π∗ 上预期自由能行为的恰当简化形式描述。当这些结构性条件失效时(例如,当认识激励或身份刚性变得活跃时),理性疏忽就不再是正确的极限说明。
这一特化机制与基于信息处理成本的有限理性决策的信息论公式相一致(Ortega 和 Braun,2013),并在此嵌入到一个更广泛的变分架构中。虽然信息论控制通常将信息成本视为外部约束,但 EFE 框架将它们推导为与工具价值和信念稳定性处于共同度量上的内部正则化项。
重审图 2 中引入的分岔图,图 4(信息机制)阐明这一转变是结构性的。随着复杂度成本 λ 的增加,系统从效用主导行为转变为信息正则化动力学。策略吸引域变厚且切换变慢,再现了理性疏忽的行为特征,这是高信息处理成本的自然几何后果。

本小节论证了当 λ 将表征变化作为信息处理资源进行惩罚时,该变分架构会简化为理性疏忽。然而,λ 并不仅仅编码认知信道成本。它更普遍地代表了深层生成结构中的刚性。3.6 小节接下来将表明,当这种刚性附着于潜在身份先验而非信息信道时,预期自由能(Expected Free Energy)反而会简化为身份经济学(Identity Economics)。
3.6 作为信念刚性的身份经济学
关于身份经济学的研究强调,当行为旨在维护自我概念或社会角色时,会出现对纯粹工具性优化的系统性偏离(Akerlof 和 Kranton,2000;Bénabou 和 Tirole,2016)。个体的行动旨在保持与其自我认知的一致性,这超越了简单的收益最大化。形式模型通过在效用泛函中惩罚偏离身份的行为来捕捉这一点(例如,Akerlof 和 Kranton,2000;Bénabou 和 Tirole,2016),这是建立在认知失调的心理学框架之上的(Festinger,1957)。在本框架内,这作为一种由 λ 驱动的机制涌现,其中偏离锚定身份先验会产生行为后果。我们将此形式化为:


解读:这一结果将身份视为一种潜在的概率先验,将身份失调视为一种散度。同时,保护身份免受收益最大化影响的行为并不意味着非理性,而是表明占据了 Ω 空间中散度成本在结构上占主导地位的区域。因此,牺牲工具性收益以维护身份的行为在变分意义上是理性的。它最小化了相对于一个生成模型的预期未来惊奇,该生成模型联合编码了智能体及其环境,且条件于固定的身份先验。在这个精确的意义上,如果世界具有假设集 3.6 中规定的结构形式,那么身份经济学可以被视为预期自由能所简化的机制。反之,当这些结构性条件失效时,身份经济学未必是恰当的极限描述。
这一形式化还原在身份经济学的严谨语言中,为关于“自证”(self-evidencing)和内部自我模型维护的概念性提议(Friston 等人,2023)奠定了基础。通过将身份表征为潜在的概率对象,该框架允许推导出符合规律的持续性和滞后效应。这些机制通常在意识文献中被定性讨论,但在这里用精确的决策论术语表达。
该框架有助于解释那些在仅关注收益的模型中显得令人困惑的持续性模式,包括稳定的社会规范以及对教条承诺的信念坚持(Rabin,1998)——这些抗拒修正,以及持续的身份自我概念(Bénabou 和 Tirole,2016)——这些将行为锁定在狭窄的轨迹中。在每种情况下,“身份”构成了对 θ 的散度惩罚。附录 B.4 形式化了由此产生的几何结构和滞后效应,这些效应使得退出身份机制比进入它更难。图 5 阐明了由此产生的“身份陷阱”。

3.7 作为精度衰减的跨期选择与折现
经典理论通过指数折现效用(Samuelson, 1937)对时间偏好进行建模,假设耐心率是恒定的。行为经济学通过双曲线和准双曲线折现(Ainslie, 1975; Laibson, 1997)对此提出挑战,在此类折现下,智能体表现出当前偏差,以及在近期与远期结果之间出现偏好逆转。
在本文讨论的变分框架中,折现是预测精度随时间衰减的后果。智能体依据其对未来自身生成预测所赋予的置信度来权衡未来的预期自由能。如果时间精度发生衰减,那么对 G(π)的未来贡献就会被降权,智能体从而表现出折现行为。这种衰减的形态决定了跨期选择是表现为经典的指数形式,还是行为上的当前偏差形式(以每期工具性主导为条件)。为了使这一映射精确化,我们将注意力限制在一个非空的可容许比较集

上,在该集合上满足以下时间精度条件:

解读:在此架构中,折现可以被表征为反映了模型置信度,而非一种对“现在”优于“稍后”的原始偏好。智能体之所以对未来进行折现,是因为其生成模型的预测界限随时间推移而变得宽松(Sozou,1998)。时间精度的恒定比例衰减(机制 A)产生了经典的指数折现。带有初始“不确定性冲击”的非线性精度衰减(机制 B)产生了当前偏差和双曲线折现,这是针对随时间增加的不确定性在数学上正确的响应(另见 Sozou,1998),其前提是每期效用嵌入保持稳定。
如图 6(折现机制)所示,当时间精度以恒定速率衰减时,会出现标准的指数曲线;而当精度在紧接着的下一步急剧下降随后趋于平缓时,则会出现当前偏差模式。在这两种情况下,跨期选择行为都是时间精度轮廓 γτ 在期望效用上的投影,而非一个独立的偏好参数。

在刻画了全局时间结构和精度衰减如何产生经典折现和行为折现之后,3.8 小节现在从全局机制转向局部几何,展示预期自由能表面在特定参考点周围的曲率如何诱导感知收益和损失中类似前景理论的不对称性。
3.8 作为变分梯度效应的局部类前景理论不对称性
前景理论(PT)识别出了稳健的经验不对称性:损失比收益权重更大,评估依赖于参考点,且在参考点 r 上方和下方的曲率不同(Kahneman 和 Tversky,1979)。标准行为经济学在价值函数中显式地强加了这些不对称性(例如,Kőszegi 和 Rabin,2006)。在本文讨论的变分框架中,当参考结构化的偏好与精度结构化的刚性成本相互作用时,类似的效应作为决策面的局部几何性质内生地涌现。因此,不对称性从 G(π) 的几何结构中内生地涌现,其意义在于在维持的正则性假设下的局部策略比较静态。
除了围绕参考点 r 的结果不对称性外,前景理论还强调在概率处理中的系统性扭曲(概率加权)。在基于 EFE 的框架内,概率加权不需要外生强加的加权函数。相反,当认识价值对策略得分有贡献时,它可以表现为从预测概率到选择概率的映射中一种依赖于不确定性的扭曲。更一般地,只要信息敏感项通过 −γoIGt(π) 在不同策略上负载不同,并且(在适用时)通过任何依赖于同一不确定潜在对象的 λCt(π) 分量,此类扭曲就会出现。随着后验确定性消除了相关的信息差异,这些扭曲就会消失。
因此,一个关键的要求是认识价值必须在后验确定性下坍缩。当认识价值被指定为潜在概率参数与未来结果之间的互信息时,任何概率加权效应必然是瞬态的,并且随着不确定性收缩,平滑地收敛到工具性(期望效用)极限,同时保持(玻尔兹曼-卢斯)决策规则和策略集固定不变。


解读:前景理论类型的行为被重构为一种优化响应,发生在违反高精度身份先验在结构上比在低精度、灵活的信念维度内进行调整代价更高的环境中。λ 加权复杂度项并不编码外生的不对称性。相反,这种不对称性内生地源于生成模型的层级精度结构。因此,在假设集 3.8 下,损失厌恶和概率加权作为预期自由能表面的局部几何性质涌现,而非作为对价值函数的强加扭曲,并且它们是局部的(而非全局的)主张, tied to (绑定于) (PT1)–(PT4) 成立的邻域(并且,对于概率加权分量,(PT5)–(PT6) 也成立的区域)。
这种几何重构补充了基于模拟的说明。特别是,主动推理模型通过调整策略精度,复现了人类对风险和模糊性的类人响应(Schwartenbeck 等人,2015)。然而,命题 2 超越了说明性模拟,提供了不对称性作为变分梯度效应的形式证明。由此表明,类损失厌恶的曲率是决策面本身围绕参考点的内生属性,必然源于生成模型的层级精度结构,而非作为特定的参数拟合。当在预期自由能表面上可视化时,如图 7(局部梯度不对称性)所示,这表现为围绕参考点 r 的不对称曲率:表面在 r 上方(收益)更平坦,在 r 下方(损失)更陡峭。

3.9 结构性完备性结果
迄今为止,我们已经证明,一旦不确定性结构 (γp)、认识权重 (γo)、刚性 (λ) 和时间精度 (T) 受到适当限制,期望效用理论、理性疏忽、身份经济学以及类前景理论的不对称性都会作为预期自由能最小化的精确机制出现。人们或许仍会将这些视为精心挑选的案例研究。因此,遗留的问题在于,这些嵌入是否反映了在一个明确界定的结构类中,基于 EFE 的函数形式所具有的一般表征属性。本小节通过从嵌入具名理论转向一般的表达性结果,直接解决了这一问题;据此,预期自由能为一类广泛但明确界定的贝叶斯控制架构提供了正则表征基。
起点是结构性的。经济学、认知科学、控制理论和人工智能中的许多决策模型可以表述为工具性偏好泛函、认识性或信息论分量、以及基于散度的正则化或约束项的加性组合(Tishby 和 Polani,2011;Ortega 和 Braun,2013)。预期自由能(EFE)本身已确切具备这一架构。因此,随之而来的问题是,这种对齐能否在一个明确指定的结构域内被形式化为一个完备性陈述。构建这样一个完备性主张需要固定它所适用的目标域。因此,我们将关注范围限制在具有偏好、认识性和散度正则化分量的加性贝叶斯控制泛函上,并假设其满足标准正则性条件和非退化增强规则。


解读: 预期自由能并非为了复制几个具名理论而精心拼凑的成分之和。它构成了由 (SC1)–(SC5) 所涵盖的贝叶斯控制目标类别的充分结构基础,为该领域提供了共同的表征。因此,J 中的模型不仅可以被视为 EFE 的外部竞争者,更应被视为占据了由 G(π)生成的机制空间中定义明确的区域。它们之间的差异对应于生成结构以及 Ω 中的差异,而非根本不同的理性观念。这一视角有助于解释为何 EFE 无需额外的心理学假设即可生成结构化的行为模式。折现、探索、身份刚性以及类前景理论的不对称性随后表现为单一泛函的参数机制,而非事后调和的独立理论。该结果是表征性的。它并不声称所有这些目标都是合理的,也不声称 EFE 是理性公理唯一蕴含的结果。它仅声称基于 EFE 的架构作为一个变分目标跨越了这一结构类别。特别是,受限增强条件 (SC2) 排除了策略索引先验或查找表构造,确保了跨越主张在陈述的加性贝叶斯控制域内是实质性的,而非空洞的表征编码。
虽然先前的工作在有限理性控制的自由能变分框架内将 KL 控制和风险敏感控制推导为极限情况(Ortega 和 Braun,2013),但本处的跨越结果将这种对齐扩展到了行为经济学的结构原语。与纯粹的控制论分解不同,此处建立的表达基(定理 6)为那些生成模型显式地由身份锚定刚性和信息处理成本构建的智能体提供了共同的表征。因此,该框架不仅仅关联了控制律。它识别出了行为表型作为单一变分原理的符合规律的表现而涌现的结构性条件。
这一完备性结果暗示了一种共同的几何嵌入,如图 8(决策流形)示意所示。因此,每个经典理论占据了由策略集 ΠΠ 和超参数向量 Ω 定义的高维空间中的特定机制区域。它们是在由 (SC1)–(SC5) 定义的结构域内,单一变分目标的替代参数化形式。

该图明确了代数推导所确立的结果:经典理论最好被看作是在由 (SC1)–(SC5) 所定义的结构域内、对单一变分目标函数的不同参数化方式。第 3.10 小节现将整合这些结果,为向实证层面的过渡奠定基础。
3.10 综合与向经验研究的过渡
第 3 节现已确立了以下核心结果。首先,在附录 A.0 陈述的维持正则性假设下,预期自由能定义了一个数学上适定的决策规则。其次,期望效用在可识别的结构性限制下作为一种精确的极限机制出现,且这种等价性在熵异质性下会破裂。第三,鉴于 3.4–3.8 小节中指定的相应假设集,理性疏忽、身份经济学、跨期折现以及类前景理论的不对称性作为符合规律的内部案例出现。第四,在由 (SC1)–(SC5) 界定的类别 JJ 内,第 3 节表明预期自由能在由假设集 3.9 定义的域内跨越了一类广泛的贝叶斯控制架构。
附带的几何图示强化了这一逻辑。景观图展示了当约束将系统推入期望效用机制时 EFE 表面如何坍缩,以及当身份先验占主导时刚性如何将表面变形为深吸引域。分岔图预览了 Ω中的微小变化如何诱导工具性、认识性和刚性驱动机制之间的定性转变。景观图示将经典模型定位为嵌入在更广泛变分空间内的表面,其有效性局限于相应的结构区域。
实质性的启示如下:经典理论可以被定位为生成模型和 Ω 联合空间中的结构化区域。在这些区域之外,经典泛函要么变得指定不足,要么需要辅助修正,而预期自由能则在维持的变分架构内继续产生连贯且可解释的预测。
这些结果与当代关于预期自由能起源和分解的分析,以及主动推理文献中提出的相关基于散度的目标公式(Millidge, Tschantz 和 Buckley, 2021)进行了对话。如果先前的文献侧重于 EFE 目标的功能性“为什么”,那么本节 3 中发展的结果则提供了“在哪里”,明确了经典理论所处的精确结构区域。这种从推导到结构性定位的转变,使得现有模型可以被视为在由 (SC1)–(SC5) 定义的结构域内,单一变分目标的替代参数化形式。
第 4 节现在从表征转向动力学。它引入了构造性数值说明,旨在研究 Ω 的变化如何随时间使预期自由能景观发生变形,并将滞后、概率扭曲和机制转换等现象表征为该架构的动力学后果。随后,第 5 节从这些演示转向经验识别。它推导了 Ω 可从数据中识别的条件,提出了估计策略,并概述了能够将预期自由能框架与理性疏忽及前景理论区分开来的实验范式。
原文链接:https://zenodo.org/records/18009668?utm_source=chatgpt.com