首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | AI生物计算智能体可自主挖掘生物学新发现

Nat. Methods | AI生物计算智能体可自主挖掘生物学新发现

作者头像
DrugAI
发布2026-03-30 18:45:52
发布2026-03-30 18:45:52
1640
举报

DRUGONE

现代生物学研究越来越依赖高维度数据,例如单细胞RNA测序数据,这类数据包含大量潜在的生物学信息,但同时也带来了巨大的分析复杂度。由于可能的分析路径数量庞大,研究人员往往只能探索其中的一小部分,从而可能错过重要发现。为了解决这一问题,研究人员开发了 CellVoyager,一种基于大语言模型的计算生物学智能体,能够在最少人工干预的情况下自动探索生物数据并生成新的分析流程。

CellVoyager 可以在 Jupyter 环境中自动生成代码、执行分析并解释结果,同时结合已有研究内容,提出新的假设和分析策略。在对多个已发表的单细胞研究进行测试时,该智能体能够提出与原始研究相符甚至更具创新性的分析方案,并在多个案例中发现新的生物学见解。研究结果表明,自动化AI智能体有望成为未来生物数据分析的重要工具,并帮助研究人员在复杂数据中发现被忽视的规律。

随着单细胞组学、多组学和空间转录组等技术的发展,生物学数据的维度和规模不断增加。虽然这些数据包含丰富的信息,但同时也需要复杂的计算方法才能提取有效信号。对于许多研究人员而言,掌握所有分析工具并系统探索所有可能的假设几乎是不现实的。

单细胞RNA测序尤其具有代表性,这类数据能够在单细胞水平上测量基因表达,从而揭示细胞状态变化、细胞亚群以及分子调控机制。然而,由于可选择的分析方法数量极多,研究人员往往只能尝试有限的分析流程,导致潜在的重要发现被忽略。

近年来,大语言模型在代码生成和科学推理方面展现出强大能力,使得基于语言模型的AI智能体成为自动化数据分析的新方向。这类系统不仅可以执行指定任务,还可以主动提出新的分析思路,从而帮助研究人员探索更广泛的假设空间。

方法概述

CellVoyager 是一个基于大语言模型构建的智能体框架,其目标是在已有分析基础上自动生成新的分析流程,并避免重复已有工作。该系统需要两个主要输入:处理好的单细胞数据集,以及描述数据背景和已完成分析的报告。报告通常来自已发表论文,用于帮助智能体理解研究问题和已有结论。

在运行过程中,CellVoyager 会生成称为“探索蓝图”的分析计划,其中包含研究假设、逐步分析方案以及对应的代码。智能体首先对计划进行自我检查,然后在 Jupyter notebook 中执行代码,并根据结果自动调整后续分析。系统能够读取执行输出并给出自然语言解释,从而形成完整的分析记录。

通过这种循环式流程,CellVoyager可以逐步扩展分析空间,并发现研究人员未曾尝试的方向。

图1:CellVoyager 智能体框架。

结果

CellVoyager方法与工作流程

研究人员首先展示了CellVoyager的整体架构。该系统结合语言模型、代码执行环境和结果解释模块,使智能体能够在单个分析环境中完成从假设生成到结果解读的全过程。

与传统自动分析工具不同,CellVoyager会记录完整的探索轨迹,包括每一步的假设、代码、输出和解释,使整个分析过程具有可追溯性和可解释性。

CellBench基准测试

为了评估智能体提出分析方案的能力,研究人员构建了一个基准测试集,其中包含多篇已发表的单细胞研究。系统只读取论文的背景部分,然后预测作者可能进行的分析,并与实际分析进行比较。

结果表明,CellVoyager在预测研究人员实际执行的分析方面明显优于多种语言模型,说明该智能体能够理解生物学问题并提出合理的计算策略。

图2:CellBench 基准测试评估结果。

图3:人类专家评估结果。

COVID-19数据分析案例

在一个关于COVID-19免疫反应的单细胞数据集中,CellVoyager在已有分析基础上提出新的基因相关性分析,并发现炎症相关基因之间存在新的关联模式。这些结果经过专家评估,被认为具有合理性并可能具有生物学意义。

这一案例表明,AI智能体能够在复杂数据中提出研究人员未尝试的分析方向。

图4:COVID-19 外周血单核细胞(PBMC)案例中的智能体生成分析。

细胞通讯分析案例

在另一个研究中,CellVoyager对细胞间信号通路进行了新的探索,并发现潜在的细胞通讯模式。该结果为理解免疫调控提供了新的线索,显示出自动化分析在发现复杂调控关系方面的潜力。

图5:人类子宫内膜研究案例中的智能体生成分析。

衰老相关数据分析案例

在衰老相关的单细胞数据集中,CellVoyager提出新的分析流程,用于识别与年龄相关的细胞亚群和基因表达变化。专家评估认为,其中部分发现具有创新性,并可能为进一步研究提供新的方向。

图6:脑衰老研究案例中的智能体生成分析。

讨论

研究人员认为,CellVoyager展示了一种新的生物数据分析模式,即由AI智能体主动探索数据空间,而不是仅依赖人工设计分析流程。随着生物数据规模不断增加,这种自动化探索能力将变得越来越重要。

未来的发展方向包括提高智能体的科学推理能力、增强对实验设计的理解,以及扩展到更多类型的数据,例如空间组学和多组学数据。此外,还需要建立评估标准,以确保AI生成的结果具有可靠的生物学意义。

总体而言,CellVoyager表明,基于大语言模型的智能体不仅可以辅助分析,还可以成为推动科学发现的新工具。

整理 | DrugOne团队

参考资料

Alber, S., Chen, B., Sun, E. et al. CellVoyager: AI CompBio agent generates new insights by autonomously analyzing biological data. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03029-6

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档