古希腊哲学家第欧根尼曾在大白天提着灯笼走在雅典街头,高呼"我在寻找一个诚实的人"。如果将这个故事放到当下,我们大概都在寻找一个诚实的AI。
Anthropic正式宣布并发布Claude Opus 4.8大语言模型,该公司认为这款模型或许能够满足第欧根尼的追求。
"Opus 4.8最显著的提升之一就是它的诚实性。"Anthropic在周四发布的博客中写道。
这款新的前沿模型表现将更加规范。Anthropic表示,Opus 4.8不太可能提出缺乏依据的判断,同时更倾向于在不确定答案时主动告知用户。
"我们的评估结果也印证了这一点——Opus 4.8在代码编写中放过未标注缺陷的概率比上一代低约4倍。"该公司表示。
在Claude Code的实际使用中,笔者认为Opus 4.7相较于4.6已经有了显著提升。4.6版本常常误解指令或给出错误结果,而4.7则会主动说明最初的解题思路行不通,并随即调整策略。近期的项目任务也表明,4.7对需求的理解程度远超4.6。
基于从4.6到4.7的明显质量飞跃,笔者期待4.7到4.8同样能带来类似的惊喜。
Spotify的员工工程师汤姆·普里查德已对Opus 4.8进行了测试,他的评价似乎印证了这一点。
"Claude Opus 4.8的判断力明显更强。在Claude Code中,它会提出正确的问题,主动发现自身错误,在方案不合理时会提出反驳,并在进行重大变更前针对复杂的多服务探索建立充分的信心。这是一款非常适合开发构建的模型。"他在博客文章中写道。
Claude Code自4.7版本起就具备了设置"努力程度(effort)"的功能——这本质上是衡量模型在处理问题时投入多少AI算力的指标,以Token数量计算。
在Opus 4.8中,Claude Code默认的高努力程度能实现"质量与用户体验的最佳整体平衡"。在编码任务中,该默认设置消耗的Token数量与Claude Code Opus 4.7的默认级别相当,但性能表现更佳。
这一努力程度功能现在也将延伸至Claude.ai和Cowork中。在较高的努力程度设置下,Claude将"更频繁、更深入地进行思考";在较低的设置下,Claude响应更快,用户也会发现AI体验受到的限制更少。
此次发布的研究预览版还具备一项动态工作流功能:Opus 4.8可以规划工作流程,在单次会话中并行运行数百个子智能体,并在反馈结果前验证输出内容。该功能专为超大规模任务而设计,Anthropic举例说明的场景是跨数十万行代码的代码库级别迁移工作。
Claude能够根据任务进展动态生成和管理工作流,而非依赖固定计划。智能体可以根据工作中发现的情况随时调整优先级和任务分配,这将极具潜力。
Anthropic表示,子智能体在向用户反馈结果前会先对自身结果进行验证。当Claude协调数百个子智能体运作时,系统必须能够识别不确定性、错误假设和失败输出,因为仅凭人工监督根本无法跟上如此规模的运转节奏。
这一点与文章开头提到的诚实性形成了直接呼应——如果Claude要调度成千上万个智能体,获得可靠且经过验证的结果至关重要。
动态工作流功能将向Enterprise、Team和Max计划的Claude Code用户开放。
Anthropic表示,Claude Opus 4.8已于周四通过Claude及Claude API(标识符为claude-opus-4-8)在全平台正式上线。
在实际使用中,尤其是使用Claude Code的用户,可能需要重启会话或等待一天左右,Claude Code才能识别并切换到新版本。此前从4.6升级到4.7时,笔者持续询问Claude Code使用的是哪个版本,直到第二天早上它才停止报告Opus 4.6,转而显示Opus 4.7。
整体定价与Opus 4.7保持一致,基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。
快速模式可使模型以普通模式2.5倍的速度运行,该公司表示其费用"比前代模型便宜三倍"。虽然笔者本人并不使用快速模式,但其吸引力显而易见——等待Claude Code响应的漫长时间着实令人头疼。
Q&A
Q1:Claude Opus 4.8在诚实性方面有哪些具体改进?
A:Opus 4.8在诚实性上有两大核心改进:一是更少提出缺乏依据的判断,二是在不确定答案时会主动告知用户。根据Anthropic的评估数据,Opus 4.8在代码编写中放过未标注缺陷的概率比上一代低约4倍。这种诚实性在多智能体协作场景中尤为重要,因为当Claude协调数百个子智能体时,人工监督根本无法独立跟上,系统必须能够自主识别错误假设和失败输出。
Q2:Claude Opus 4.8的动态工作流功能是什么,适合哪些用户使用?
A:动态工作流是Opus 4.8以研究预览形式推出的新功能,允许模型在单次会话中并行运行数百个子智能体,并根据任务进展动态调整工作计划,而非执行固定流程。子智能体在反馈结果前还会自动验证输出内容。该功能专为超大规模任务设计,例如跨数十万行代码的代码库迁移。目前此功能仅向Enterprise、Team和Max计划的Claude Code用户开放。
Q3:Claude Opus 4.8的定价是多少,快速模式有什么变化?
A:Opus 4.8的整体定价与上一代Opus 4.7保持一致,基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。快速模式方面有较大变化——该模式可使模型以普通模式2.5倍的速度运行,费用比前代模型便宜三倍,性价比明显提升。