哲学 for AI
AI幻觉是个哲学问题,而非工程问题
本文图片来源网络,如有侵权请联系后台删除。
2024 年起,法学、医学、新闻与教育界反复出现同一类事故:用户向大模型索取文献,得到格式完美、作者逼真、期刊像真、DOI 却查无此文的条目。Ji 等(2023)把这类与源或事实不一致的生成,归入 NLG hallucination 家族。OpenAI 在2024年GPT-4o System Card一文中提到:幻觉会误导用户,并造成错位的信任(miscalibrated trust)。
然而,如果一位工程负责人在发布会上说:"我们花了大量精力解决幻觉问题,现在模型在说不知道方面做得更好了。"这句话听起来没问题。但如果你把它翻译成哲学语言,它的意思是:"我们花了大量精力,让模型在撒谎方面更加可信。"
这不是鸡蛋里挑骨头。这是一个被整个行业带偏了方向的问题。
幻觉不是 bug。
幻觉是训练目标的方法论盲区。
或者说,工程手段能压制症状,但只要训练框架不变,幻觉就永远在那里。
001
我们起的名字,已是一种立场
"AI 幻觉"(hallucination)这个词,是 AI 行业自己发明的。
在精神科临床语境中,"幻觉"(hallucination)指的是:在没有外界刺激的情况下,产生了具有真实感知的经验。它的前提是,存在一种"非幻觉"的正常认知状态,作为对照的基准。
把这个词用在 LLM 身上,已经是哲学立场,而不是中性描述。
它的潜台词是:LLM 本来应该对应现实,只是在某些时候'脱离现实'了。换句话说,幻觉是一种偏差(deviation),而不是一种结构特征(structural property)。
但这个假设从来没有被严格论证过。
让我们来问一个基础问题:LLM 有一个它应该对应的"现实"吗?
人类有。人类有身体,有感知,有与世界的持续交互,有神经系统的因果链条。洛克会说:我们的观念(ideas)与外部对象之间存在某种对应关系,幻觉就是这种对应关系被干扰的结果。
LLM 没有身体。它没有感知。它没有"看到"过任何东西。它有的是:人类在互联网上写下的数十亿句话。
当 LLM 生成一句话时,它的操作是:在给定上文的情况下,输出一个统计学上最可能跟随的 token 序列。
它的"正确",是统计上的正确(statistically correct),而不是世界对应意义上的正确(world-referentially correct)。
幻觉不是 LLM 偶尔脱离现实。它是 LLM 以统计方式处理语言时,结构性地产生的现象。给它贴"幻觉"的标签,是在用人类的认知框架,掩盖一个更深的方法论问题。
002
幻觉的前提,LLM 一样都没有
1.语言哲学层:语言的前提,LLM 全都违反了
在语言哲学家那里(比如塞尔、普特南、克里普克),语言的意义,不能仅从符号之间的关系来解释,必须从符号使用者与世界的因果-历史联系来解释。
词语的意义是具身的(embodied)、因果性的(causal)、历史性的(historical)。这三个条件,LLM 一个都不满足。
这意味着,当 LLM 输出"水的化学式是 H₂O"时,从形式上看,这句话对应着现实中的化学事实。但从 LLM 的内部机制看,这句话的产生逻辑是:在大量语料中,"水的化学式是"这个前缀后面,最常跟随的 token 序列是"H₂O"。
它不是在陈述一个化学事实。它是在复现一个陈述化学事实时最常出现的语言模式。
两者在输出层面完全无法区分——但它们在认知结构上,是完全不同的东西。这就是为什么 LLM 会在某些情况下生成"听起来完全正确但事实完全错误"的内容。幻觉不是异常,是必然。
2.认识论层:信念的结构,LLM 没有
在认识论中,"知识"(knowledge)通常被定义为:信念(belief)+ 理由(justification)+ 真值(truth)。
这是著名的"知识的 JTB 理论"(Justified True Belief),被盖梯尔反例(Gettier problem)多次挑战,但在日常语境下仍然是认知的标准框架。
LLM 的输出,具有信念的形式,但没有信念的结构——没有证成(justification),没有理解(comprehension),只有模式复现(pattern replication)。
如果明天人类测出新数据说珠峰是8850米,GPT-5 不会感到惊讶、不会更新它的"信念",它只会用新的 token 序列替换旧的 token 序列。
幻觉是这个"有信念形式但无信念结构"的系统在缺乏世界参照时,必然产生的输出形式。不是 bug,是症状。
3.语用学层:LLM 处于一个连语言学家都无法定义的位置
英国语言哲学家保罗·格莱斯(Herbert Paul Grice)
语言哲学家 H.P. Grice 在《逻辑与会话》(1967)中,区分了语言表达的两个层面:
说出的内容(what is said):话语的字面意义
隐含的内容(what is implicated):话语在特定语境下传达的言外之意
Grice 认为,正常的人类交流中,话语的隐含内容是由说话者意图和共同背景知识共同决定的。这两者都需要一个前提:有一个人在说话。
LLM 的输出,既不是纯粹的"字面断言"(因为它没有世界对应),也不是真正的"隐含表达"(因为它没有言者意图)。它处于两者之间的一个哲学上从未被定义过的灰色地带。
幻觉,是这种灰色地带在特定条件下的显性化。
003
工程手段为什么只能修修补补
RAG:给模型一本参考书,但它不读书,它只查页码
检索增强生成(RAG)在信息有据可查的场景下确实有效,但它的局限性是结构性的:
RAG 无法解决跨领域推理中的幻觉。当问题需要多个领域的隐含知识时,模型的"自行推理"仍然是在 token 空间中完成的,幻觉概率不变。
RAG 还引入了一个新问题:检索质量的依赖。如果检索系统本身出错,RAG 会把这种错误放大为更"可信"的输出。
RLHF 和 Constitutional AI:在训练"看起来可信",而不是"对应现实"
人类反馈强化学习(RLHF)的共同逻辑是:让人类标注者对模型的回答打分,然后训练模型生成更高分的回答。
"看起来更可信"和"更接近真理",是两件完全不同的事。
人类标注者的打分,本质上是基于回答的语言质量——流畅度、连贯性、符合日常直觉的程度。这些标准,会系统性地奖励那些"说得像真的"回答,而不是"事实上是真的"回答。
RLHF 本质上是在训练模型更擅长表演认知,而不是更擅长认知。只要训练目标不是"最大化真值对应",幻觉就会在训练中系统性存在。
思维链(CoT):幻觉的传播放大器
思维链推理(CoT)确实提高了推理的可解释性。但CoT 的推理链本身,仍然是在 token 空间中生成的。
如果模型在某个推理节点上产生了幻觉,这个幻觉会沿着推理链向下传播,并在每个后续步骤中被进一步"合理化"——幻觉在 CoT 中变得更难发现,因为它被更长的语言结构包裹了。
输出置信度校准:元认知需要的东西,LLM 还没有
"知道自己不知道"是一种元认知能力,它的前提是:模型知道自己在说什么。
LLM 的 next-token prediction 训练框架,没有提供任何机制,让模型能够将自身的输出分布(output distribution)与世界真值(world truth)进行比较。
模型可以学会说"我不确定",但它学会的是"在某些语言模式下,人类期望我表示不确定",而不是"我的输出与现实之间存在偏差"。
这两者之间的差距,就是工程手段无法跨越的最后一道墙。
004
我们还没搞清楚 LLM 到底是什么
幻觉问题最深刻的影响,是迫使我们面对一个更基础的问题:
当我们说 LLM"理解"了一个概念时,我们到底在说什么?
在哲学上,维特根斯坦在《哲学研究》中提出了著名的"私人语言论证"(Private Language Argument):如果一个词语的意义仅仅依赖于说话者私有的、无法公共验证的心理状态,那么这种语言就不可能存在。
LLM 的词语意义,来自对人类公共语料库的统计学习。它既不是私人的,也不是基于世界因果联系的。
那么,LLM 的语词意义到底是什么?这是一个目前没有共识的问题。幻觉,正是在这个哲学问题悬而未决时,工程界强行部署 LLM 所产生的认知后果。
幻觉不是 AI 在撒谎,是我们在没有搞清楚"真"是什么之前,就要求 AI"不撒谎"。
"不撒谎"这个要求,前提是说话者有能力区分"真话"和"假话"。而我们目前没有一套完整的语言哲学,能够描述 LLM 与"真"之间的关系——因为我们甚至还没有搞清楚,LLM 处理语言的这种方式,在哲学上究竟对应着什么样的认知状态。
所以,真正的问题不是:如何让 LLM 不产生幻觉?
真正的问题是:在 LLM 到底是什么这个问题悬而未决的情况下,我们是否应该把"不产生幻觉"作为对它的评价标准?
这个标准,也许是哲学给 AI 行业留下的最后一道未完成的作业。
你今天让 AI 帮你查文献、写报告、做决策。
你以为你在使用一个"认知工具"。但如果它根本不具备与现实对应的认知结构,那么你的"使用",
究竟是在借助一个更强的图书馆,还是在一个不知道边界在哪里的地图上导航?
参考文献
Bai, Y., et al. (2022). "Constitutional AI: Harmlessness from AI Feedback."arXiv preprintarXiv:2212.08073.
Gettier, E. (1963). "Is Justified True Belief Knowledge?"Analysis, 23(6), pp.121–123.
Grice, H.P. (1975). "Logic and Conversation." In P. Cole & J.L. Morgan (eds.),Syntax and Semantics: Vol. 3: Speech Acts.Academic Press, pp.41–58. (Original lecture, 1967.)
Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation.ACM Computing Surveys, 55(12), Article 248. https://doi.org/10.1145/3571730
Locke, J. (1689/1975).An Essay Concerning Human Understanding.(A.C. Fraser, ed.). Oxford University Press.
OpenAI. (2024). GPT-4o System Card.arXiv:2410.21276. https://arxiv.org/abs/2410.21276
Searle, J.R. (1969).Speech Acts: An Essay in the Philosophy of Language.Cambridge University Press.
Wittgenstein, L. (1953).Philosophical Investigations.(G.E.M. Anscombe, trans.). Basil Blackwell.
作者简介
陆分野,@哲学前沿philontier专栏作者
只画立场,不画胜负。
不爱说「谁对了」,爱说「这一派凭什么、软肋在哪」。地图上要标文献,像登山要标海拔。
本期责编:边淮
读了好文,点亮「
」