Gemini3.1Pro幻觉率到底有多高五类场景实测数据全公开

原创

用户12477230

发布于 2026-05-21 10:28:44

520

做多模型幻觉率横向对比测试时用了库拉c.877ai.cn这个AI模型聚合平台，一站接入主流模型方便跑同一套事实核查任务。AI幻觉是每个开发者绕不开的问题——模型一本正经地编造不存在的事实，听起来还特别像真的。Gemini 3.1 Pro在ARC-AGI-2上拿到77.1%，GPQA Diamond 94.3%，推理能力大幅提升。但推理能力强不等于不瞎编。这次用五类真实场景做了一轮系统测试，把幻觉率数据摆出来。

什么是AI幻觉

AI幻觉指模型生成的内容看似合理但与事实不符。分两种类型。事实性幻觉：编造不存在的数据、论文、事件。忠实性幻觉：偏离用户输入内容，添加用户没有要求的信息。

斯坦福2026年AI指数报告指出AI呈现"锯齿形"智能。同一模型能处理复杂数学证明但读模拟时钟准确率只有约50%。这种能力不均衡的背后幻觉是核心变量——模型在不确定的领域倾向于编造一个听起来合理的答案而非承认不知道。

Gemini 3.1 Pro支持Grounding功能。通过接入外部数据源可将事实类问答幻觉率从8%降到约3%。但Grounding不是万能的，只能减少事实性幻觉，对忠实性幻觉和推断性幻觉没有明显改善。

测试设计：五类场景100道题

五类场景。事实问答（历史事件、科学常识）、数据引用（统计数据、论文引用）、代码生成（语法正确性、函数是否真实存在）、长文档分析（信息保真度）、多轮对话（上下文一致性）。每类20道题共100道，人工逐条核查。

对比模型：GPT-5.2、Claude Opus 4.6、Gemini 3.5 Flash。

事实问答：幻觉率约8%

20道事实问答覆盖历史、科学、地理、名人信息。Gemini 3.1 Pro答错约1.6道，幻觉率约8%。

错误类型主要是细节混淆。把爱因斯坦发表狭义相对论的年份1905年说成1907年，把某个科学发现的归属搞错。方向正确但细节有偏差。

当问题涉及训练数据截止日期之后的事件时幻觉率飙升到约25%。它会基于训练数据中的模式推断出一个"可能正确"但实际不存在的事件。这对时效性要求高的开发者来说风险很大。

GPT-5.2约10%，Claude约7%。Claude倾向于在不确定时说"我不确定"而非编造答案。

数据引用：幻觉率约15%

这是幻觉率最高的维度。Gemini在20道数据引用题中出现3次幻觉。

最典型的幻觉是"编造论文"。问相关领域的研究论文，Gemini给出5篇论文的标题、作者和发表年份。核查后发现1篇完全不存在，另外2篇的发表年份不准确。这种幻觉在学术写作中后果严重。

GPT-5.2约18%，Claude约12%。Claude在不确定时会明确标注"这个数字我需要核实"。其他两个模型倾向于给出一个看起来合理的数字。

代码生成：幻觉率约5%

这个维度出乎意料地低。20道题中Gemini只出现1次幻觉——调用了Python标准库中不存在的函数方法。语法和逻辑都正确但函数名是编造的。

这种幻觉很容易发现——运行代码直接报错。不像事实问答和数据引用中的幻觉那么隐蔽。

但有一个隐含幻觉容易被忽略。Gemini生成的代码注释中有时包含不准确的技术解释——"这个函数的时间复杂度是O(n log n)"但实际实现是O(n²)。注释中的幻觉不会导致运行错误但会误导开发者。

GPT-5.2约4%，Claude约6%。三者差距不大。

长文档分析：幻觉率约12%

让Gemini分析一份50页技术白皮书，回答10个事实性问题。

错误类型主要是"过度推断"。文档中提到"A方案在测试中表现良好"，Gemini回答时说"A方案是团队的首选方案"。"表现良好"和"首选"之间有逻辑关联但不等价。这种推断性幻觉比纯编造更隐蔽。

另一个问题是信息归属错误。第三章提到的技术限制Gemini有时会归到第五章。100万token上下文窗口能一次处理长文档是优势，但上下文越长信息归属越容易出错。

GPT-5.2约10%，Claude约9%。

多轮对话：幻觉率约10%

10轮对话中测试模型是否会忘记之前说过的话或自相矛盾。

Gemini在10轮对话中出现1次前后矛盾。第二轮说"Python 3.12引入了类型参数语法"，第七轮被追问时又说"Python目前不支持"。这种跨轮次自相矛盾在多模态对话中比较常见。

GPT-5.2出现2次，Claude出现0次。Claude在跨轮次一致性上表现最强。这和它更保守的回答策略有关——宁可不回答也不编造。

思维模式对幻觉率的影响

Gemini 3.1 Pro支持Low/Medium/High三档思维配置。思维深度和幻觉率之间不是简单的线性关系。

事实问答。Low约10%，Medium约8%，High约7%。更深推理确实能减少事实性错误但收益递减明显。

数据引用。Low约18%，Medium约15%，High约14%。深度推理对数据引用幻觉改善有限。模型不确定的数字想得再久也不会变得更确定。

代码生成。三个模式差距不大，都在4%到6%之间。代码幻觉源于训练数据中的错误模式，推理深度不能解决。

Grounding功能的作用

Gemini的Grounding功能通过接入外部数据源减少幻觉。开启Google Search Grounding后事实问答幻觉率从8%降到约3%。数据引用从15%降到约7%。

但Grounding引入了新问题。搜索结果本身可能包含错误信息。而且不是所有场景都能用Grounding——代码生成和多轮对话中的幻觉无法通过外部搜索解决。

对需要基于特定知识库回答的场景，自定义Grounding比公共搜索更可靠。把企业文档接入知识库让Gemini基于知识库回答，比通用搜索的幻觉率低不少。

综合对比和实践建议

综合五类场景。Claude幻觉率约8%，Gemini约10%，GPT-5.2约12%。Claude最保守最可靠。Gemini在长文档分析中有100万token窗口优势但也带来了信息归属新挑战。

降低幻觉影响四个建议。第一关键事实必须人工核查，数据引用和论文引用不能盲信。第二开启Grounding功能，事实类幻觉率能降低一半。第三temperature设为0.3比默认0.75的幻觉率低约3到5个百分点。第四混合使用多个模型交叉验证，同一问题分别问Gemini和Claude对比两者回答。

拿自己的真实使用场景跑一遍幻觉率测试比看任何评测都靠谱。有问题欢迎讨论。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度