
来源:Evaluating AI Agents in Biology | Phylo · Biomni Lab 发布日期:2026年2月11日 | 原文阅读时长:约14分钟 作者团队:Phylo 研究团队(已获 a16z & Menlo Ventures 联合领投种子轮)
如果你关注 AI 在生命科学领域的应用,这篇来自 Phylo 团队的博客是近期值得精读的方法论文章之一。
它不是在炫技——而是在诚实地追问一个更难的问题:我们凭什么相信生物 AI 智能体的分析结果? 现有的评测基准到底可不可靠?我们应该如何衡量一个 AI 是否真的理解生物学?
文章从一个令人警醒的场景出发,系统拆解了生物 AI 评测的三大核心挑战,分享了对 BixBench 基准的深度分析与修订实践,并提出了一套全新的"过程追踪"评测框架 BiomniBench。篇幅不长,信息密度很高。
文章开篇以一个典型场景切入:
一个 AI 智能体分析了一份差异表达数据集,交出了漂亮的火山图、整洁的基因排名和言之凿凿的解读——一切看起来都对。但在分析轨迹的深处,它使用了错误的归一化方法,忽略了批次效应,还引用了一篇根本不存在的论文。
这个例子揭示了生物 AI 最危险的特征:失败是沉默的。
代价是真实的:浪费的试剂、失败的临床试验、建立在错误基础上的科学结论。
这正是为什么,评估 AI 智能体的能力,在生物学领域比任何其他领域都更加紧迫、更加复杂。
作者归纳了生物学区别于其他领域的四个核心难点:
生物学不是一个统一的领域,它横跨分子生物学、基因组学、结构生物学、生态学、临床研究等数十个子领域,每个子领域都有自己的方法论、术语体系和判断标准。任务类型同样千变万化:文献综述、显微图像解读、基因组数据分析、实验方案撰写……构建覆盖全面的评测基准,本身就是一个巨大的工程。
一个生物学家的典型工作流:文献检索 → 实验设计 → 数据处理 → 分析解读 → 结论撰写。现有大多数评测只测试某一个节点的能力,但真实场景要求整条链路都正确——任何一环出错,最终结论都可能失效。
生物学问题往往有多种合理的实验设计方案和分析路径。期望一个固定"标准答案"的评测框架,从根本上无法捕捉科学推理的真实复杂性。这对基准构建是一个深层的认识论挑战。
许多任务的真正验证需要实际运行实验,周期以天至月计算。即便是评估每个分析步骤是否正确,也需要深厚的领域专业知识:
这些错误,连初级科学家都可能犯,让 AI 自动评分难上加难。
过去两年,生物 AI 评测领域出现了一批有价值的尝试:
阶段 | 代表性基准 | 评测重点 |
|---|---|---|
早期 | HLE、LAB-Bench | 生物知识、文献理解、序列操作、协议推理等 LLM 能力 |
近期 | Biomni-Eval1、BixBench 等 | 开放式多步骤分析、构建 pipeline、基于真实数据的决策 |
这些基准反映了社区的真实努力,也显著推进了我们对 LLM 在生物学中能力边界的认识。但若要真正评估 AI 是否能推动科学发现,仍需要弥合现有评测任务与实践生物学家日常工作之间的差距。
为评估自家平台 Biomni Lab 的分析能力,Phylo 团队首先系统测试了 BixBench——目前公认为最贴近真实场景的生物信息学基准之一。该基准要求智能体分析真实生物数据集并回答研究问题,已被多个团队采用,是自然的起点。
在原始 BixBench 上,各主要智能体成绩如下:

智能体 | 准确率 |
|---|---|
Biomni Lab | 52.2% |
Edison Analysis | 42.4% |
Claude Code (Opus 4.6) | 39.5% |
OpenAI Agents SDK (GPT-5.2) | 38.5% |
相较于原论文的约 21%,这些成绩代表了明显进步。但"即便最好的智能体也有近半题目答错"——这个表面数字,让人觉得这些系统离实际可用还差得很远。
然而,这与 Phylo 团队从用户那里听到的真实反馈完全不符。用户普遍认为这些工具在日常研究中确实有用。这个矛盾促使他们深入追查:失败究竟失败在哪里?
深入分析后,团队将失败样本归纳为三种不同性质的问题:
智能体缺乏深层生物学理解,导致分析错误。例如:
这类失败是真实的,反映了 AI 当前的知识边界,需要改进。
题目或背景信息不够充分,即便是人类专家也难以确定唯一答案。例如:
部分"标准答案"本身就是错的。例如:
这是最发人深省的发现:在我们评判 AI 是否够好之前,必须先评判评测本身是否够好。 只有第①类才真正反映 AI 的问题。后两类是评测的失败,不是智能体的失败。
为了将 AI 的真实能力与基准噪声分离,Phylo 团队策划了 BixBench-Verified-50:
操作流程:
结果已开源在 Hugging Face,附有详细的修订记录文档,说明每道题的原始问题与修改原因。
在修订后的子集上重跑相同智能体,成绩大幅提升:

智能体 | 原始 BixBench | BixBench-Verified-50 | 提升幅度 |
|---|---|---|---|
Biomni Lab | 52.2% | 88.7% | +36.5pp |
Edison Analysis | 42.4% | 78.0% | +35.6pp |
Claude Code (Opus 4.6) | 39.5% | 65.3% | +25.8pp |
OpenAI Agents SDK (GPT-5.2) | 38.5% | 61.3% | +22.8pp |
所有智能体的准确率都大幅提升,一致地证明了原始基准中相当比例的"失败"来自基准本身的质量问题,而非智能体的真实能力边界。
BixBench 的实践还暴露了一个更根本的问题:二元评分对生物 AI 来说是一把残缺的尺子。
考虑一个场景:
在二元评分下,两者都得 0 分。这个分数什么都没告诉我们。
对于短答案事实题,这种评分方式尚可。对于定义真实生物研究的长链路分析任务,二元评分丢弃了几乎所有有价值的诊断信号。
文章提出了一个核心类比——科学评审本身就是过程导向的:
同行评审不只看结论是否正确,因为直接实验验证既慢又贵。它审视的是方法选择、分析逻辑、对照设置。导师看学生的图,会问"为什么用这个归一化方法?""去掉那个离群点会怎样?" 过程,是建立信任的地方。
这正是为什么生物 AI 评测需要一种根本性的范式转移:从"答对了吗"到"做对了吗"。
维度 | 结果导向评估 | 过程追踪评估 |
|---|---|---|
评估对象 | 最终输出是否与标准答案一致 | 每一步分析决策的质量 |
优势 | 易于规模化,指标清晰 | 诊断价值高,与科学实践对齐 |
局限 | 无法区分"歪打正着"与"真正正确" | 构建难度大,需要领域专家参与 |
对多元解的处理 | 困难(只有一个标准答案) | 自然(可以定义合理的方法空间) |
当前生物 AI 评测中的比例 | 占主流 | 几乎缺失 |
正是为了填补这一空白,Phylo 提出了 BiomniBench——一个以分析轨迹为核心的生物 AI 评测框架。
BiomniBench 的设计遵循四个核心原则:
首个模块聚焦数据分析与解读,按五个维度打分:
维度 | 核心问题 | 具体示例 |
|---|---|---|
数据处理 | 有没有加载正确文件、用正确 ID 合并、处理好测量尺度的一致性? | 加载所有必要文件、合并时使用正确标识符、过滤到正确的处理臂和时间点、确保每个患者一行 |
方法选择 | 选用的分析方法是否适合当前任务? | 生存分析 → Kaplan-Meier + log-rank;比较免疫细胞群 → Wilcoxon(非参数),而非不恰当的参数检验 |
统计严谨性 | 统计检验、阈值、多重校正是否被正确应用? | 正确应用 p < 0.05 阈值;报告精确 p 值;在适当时应用 BH-FDR 校正;只基于统计显著结果延伸解读 |
来源可靠性 | 引用的是否是可靠的、有同行评审背书的信息源? | 来自同行评审文献、权威数据库的相关引用,而非幻觉出来的参考资料 |
推理链条 | 整体分析逻辑是否连贯?解读是否连接到生物学机制? | 正确框架化问题(如区分"生存相关"vs"预测性"生物标志物);避免因果过度声明;连接到生物学机制(如 CD40 驱动的抗原呈递);承认研究局限性 |
任务由领域专家(包括原始论文第一作者和对应领域的行业专家)共同策划,覆盖:
生物医学领域:肿瘤学、神经退行性疾病、心血管疾病等
数据模态:转录组学、基因组学、临床数据等
在 15 个任务的初步子集(Biomni-DA-v0)上,各智能体综合过程评分如下(满分100):

参与者 | 类型 | 得分 |
|---|---|---|
资深科学家(大型药企,5年以上) | 人类基准 | 68.5 |
Biomni Lab | AI 智能体 | 65.0 |
Edison Analysis | AI 智能体 | 52.7 |
OpenAI Agents SDK (GPT-5.2) | AI 智能体 | 51.4 |
初级科学家(约3年经验) | 人类基准 | 48.5 |
Claude Code (Opus 4.6) | AI 智能体 | 47.8 |
几个值得注意的关键发现:
Phylo 团队将 BiomniBench 定位为一个开放的社区共建项目,原因是:
追踪式评估中最难的部分,是选题和制定评分标准(rubric)——而生物学每个子领域都有其独特的判断标准,只有实践者才真正理解。这不是一个机构能独立完成的工作。
他们正在招募希望共同参与的:
联系方式:contact@phylobio.com
BixBench-Verified-50 已开源至 Hugging Face,附有完整的逐题修订记录文档。
这篇文章的价值不只在于 Biomni Lab 的评测成绩,而在于它提出了一套系统性的反思框架,值得整个生物 AI 领域认真对待。
三个核心贡献:
1. 对现有评测基准的诚实解剖 通过 BixBench 实践,量化地展示了评测噪声的规模——清理后各智能体准确率提升了22到36个百分点。这说明当前社区对生物 AI 能力的评估,可能系统性地被低估了。
2. 对评估范式的深层反思 从"答案正确性"到"过程合理性",不只是方法上的改进,更是对"AI 智能体的可信度应该如何建立"这一根本问题的重新定义。这个框架与科学界的同行评审实践天然对齐。
3. 对领域生态的建设性贡献 开源 BixBench-Verified-50、提出 BiomniBench 框架、招募社区共建——这种做法比单纯发布一个"我的模型最好"的报告有价值得多。
局限性说明: BiomniBench-DataAnalysis 目前仍是初步结果(15个任务),Phylo 自己也明确指出这些数字会随基准扩展而变化。同时,作为 Biomni Lab 的开发方,他们在评测设计上存在潜在的利益相关性,独立验证将更具说服力。