首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AlphaEvolve一周年,AI4Science这条路到底走到哪了

AlphaEvolve一周年,AI4Science这条路到底走到哪了

作者头像
乐小野
发布2026-06-01 21:47:45
发布2026-06-01 21:47:45
790
举报

去年5月DeepMind把AlphaEvolve那篇博客挂出来的时候,引起了不小轰动。一个用Gemini驱动的进化式编码agent,把Strassen 1969年那个跑了56年的4×4矩阵乘法记录从49次乘法压到48次。这件事在数学界的分量,相当于AlphaGo战胜李世石在围棋圈的分量。

今天正好是AlphaEvolve一周年的窗口期,过去一年它在Google内部和外部的真实进展,比当时blog里讲的故事要有意思得多。我们做一次技术向的复盘,重点梳理三件事,AlphaEvolve的架构究竟有什么特别、它真的算「AI做科学发现」吗、以及这条路在2026年走到哪了。

AlphaEvolve到底是个什么东西

AlphaEvolve不是一个新的大模型,它是一个跑在Gemini之上的进化式编码agent。论文里的官方表述是evolutionary coding agent,核心思想是用LLM做变异,用自动评估器做选择,把进化算法那一套搬到代码空间里。

这个loop每次迭代做一件事,从程序库里抽一批已有程序当作上下文,让Gemini基于这些程序生成新的变体,把变体跑一遍拿到分数,分数高的塞回程序库。重复几千次几万次,程序库里的最优解就慢慢爬上去。

Gemini的两个版本在这套架构里分工不一样。Flash负责数量,每次loop生成大量低成本候选,Pro负责质量,在关键节点做深度修改。这种Flash+Pro的ensemble比单纯用Pro成本低一个量级,比单纯用Flash质量高一档。论文里反复强调一句话,AlphaEvolve的成功不在于某个单点天才,而在于把进化搜索的规模拉到了人类做不到的量级。

跟更早的AlphaTensor对比能看清楚AlphaEvolve的特点。AlphaTensor 2022年那篇DeepMind的工作也是做矩阵乘法,但它是一个针对张量分解的专用强化学习模型,泛用性差。AlphaEvolve走的是另一条路,它是通用的,给一个目标函数和评估器,理论上任何代码优化问题都能往上套。这是它真正值得行业关注的地方。

4×4矩阵乘法那48次乘法的分量

这是AlphaEvolve最出圈的成果,也是最容易被误读的成果。

故事得从1969年说起。当年Volker Strassen发表了一个递归算法,证明两个2×2矩阵相乘其实只需要7次乘法(标准算法是8次),递归扩展到4×4就是49次乘法。这个49次的纪录从1969年一直立在那里,56年没人能动。

中间有一个插曲。2022年DeepMind的AlphaTensor宣称把4×4矩阵乘法做到了47次,当时也轰动了一阵。但拆开看会发现一个关键限制,AlphaTensor那个47次只在characteristic-2有限域里成立(GF(2),模2运算),跟Strassen的49次根本不是一个数学场景,所以严格意义上没破纪录。

AlphaEvolve的48次乘法是在复数域里成立的,这是真正能跟Strassen直接比较的场景。论文arXiv 2506.13242把这个算法详细写出来了,是一个非交换的算法。在Hacker News和Mathstodon上,几位数论和算法领域的研究者反复确认过,这是1969年以来对4×4一般矩阵乘法首次有人压下来的结果。

很多人会问,从49到48,就少一次乘法,至于这么大动静吗?要在数学的语境里看这件事。矩阵乘法的复杂度是计算机科学最基础的问题之一,所有线性代数、深度学习训练、推理优化都站在这个基座上。少一次乘法看起来不多,但它打破了一个跑了56年的天花板,相当于把数学家们之前对这个问题的认知边界往前推了一步。这个心理冲击远远大于性能本身。

50多个开放数学问题,AI到底解了多少

矩阵乘法只是AlphaEvolve跑过的众多问题里的一个。论文里给的数据是这样。

类别

占比

含义

重新发现已知最优

75%

AlphaEvolve独立找到了人类已知最佳解

找到新的最优解

20%

AlphaEvolve超越了人类目前的纪录

未达到已知最优

5%

AlphaEvolve跑出来的结果差于已知

这个20%是个相当惊人的数字。要知道,被AlphaEvolve拿来跑的这些问题不是教科书习题,是数学界长期没解决或者最优解长期没人改进的开放问题。能在20%的开放问题上推进人类已知边界,这是过去任何一个AI系统都没做到过的。

举一个具体例子,kissing number问题。这是一个有350多年历史的几何问题,问的是在n维空间里最多能让多少个等大圆球同时跟一个中心球相切。这个问题的源头可以追溯到1694年牛顿和David Gregory的那场著名争论,两人在剑桥讨论3维空间里中心球周围最多能放几个等大球,牛顿说12,Gregory说13。这场争论拖了整整180年,直到1874年才被Reinhard Hoppe证明牛顿是对的,3维答案是12。

听起来像是个小学生水平的几何题,但维度一旦升上去,事情就完全不是那么回事。目前严格证出精确解的只有四个维度,1维(答案2)、2维(6)、3维(12)、4维(24,2003年Oleg Musin证明)。8维和24维这两个特殊维度因为有E8晶格和Leech晶格这两个几乎完美的结构,分别在1979年被证明等于240和196560。其他所有维度,包括5、6、7、9、10、11、12、13这些看起来很普通的数字,都只有上下界估计,精确值至今没人知道。这是数学里一个相当典型的「看起来简单,实际上无人能搞定」的硬骨头。

11维这块的下界,长期由数学家Ferenc Szöllősi和后来的Maxim Ganzhinov这一脉的构造保持,停在592这个数字附近。AlphaEvolve跑出来的新构造把11维下界推到了593。同一篇DeepMind的工作里,AlphaEvolve还在14维和17维这两个维度上推进了下界。这些进展看上去都是「+1,+某个小数字」级别的,但放到kissing number这个领域里,每一次推进的代价都极其高昂。Ganzhinov那一脉的工作背后是数十年的人类几何直觉积累,AlphaEvolve用进化搜索几个月就跑出了新结果。

故事还有一个有意思的后续。2025年11月,arXiv 2511.13391那篇PackingStar的工作出来后,13维下界被进一步推高到1146,超过了之前1130的rational records,相当于在AlphaEvolve之后又往前走了一步。这件事的意义比单纯的数字更重要,AI辅助数学发现这件事开始有了真正的接力赛特征,不再是某个团队一锤子买卖。今年5月那篇被EurekAlert报道的「Researcher cracks new kissing number bounds, besting AI」的工作,主角是人类数学家用经典方法在某些维度上反超了AlphaEvolve,又把整个领域往前推了半步。

这种你来我往的节奏才是这件事真正值得激动的地方。AlphaEvolve不是把数学家干掉了,它是逼出了一波新的数学家用更好的工具去跟AI赛跑。kissing number这个350年的老问题在2025到2026这一年里被推进的次数,比过去三十年加起来都多。

我自己更关注的是这种推进的可复制性。AlphaEvolve给定一个开放问题之后,从启动到跑出新最优解,平均需要多少算力?论文没给精确数字,但从他们公布的几个case看,单个问题大概要跑几千到几万次evaluator,配合Gemini调用大约是几万美元到几十万美元的算力成本。这个数据点的意义在于,AI做数学发现这件事,今天已经从「能不能」过渡到「成本多少」的阶段。这是一个相当显著的mile stone。

Google内部的真实战绩

光看数学突破不够,AlphaEvolve真正能立住的原因是它在Google内部已经回收成本了。

Borg那0.7%是怎么来的。Borg是Google的全集群调度器,AlphaEvolve针对其中一段调度逻辑跑了进化优化,找到了一段比原来更优的启发式策略,全局算力利用率提升0.7%。这个数字听上去小,落到Google数据中心规模上是数千万美元级别的年化收益。

TPU kernel那32.5%加速更狠。AlphaEvolve针对Gemini训练里某个高频调用的矩阵乘法kernel做优化,跑出来的版本比工程师手写的版本快32.5%。这一段后来被Google工程团队review后并入了TPU软件栈,是Google官方确认的技术成果。整个Gemini的训练时间因此缩短了大约1%。

这三件事加起来传递的信号很明确,AlphaEvolve不是一个PR项目,它是Google内部已经在生产环境里跑的工具。这跟那些只在benchmark上漂亮的agent完全不是一个性质。

AI Scientist这条路2026年走到哪了

把视角拉宽。从AlphaEvolve一周年这个时点回头看,AI做科学发现这条路在2026年5月的状态可以从三个能力维度去拆。

第一个维度是任务的开放度。从「目标函数明确」到「研究问题需要自己提」是一条连续光谱,越往右越难。第二个维度是验证成本。能用代码自动跑评估的任务(kernel优化、矩阵算法)成本最低,需要做实验、跑仿真、上设备的成本陡升,最后是需要发paper同行评议的,成本顶天。第三个维度是自主性。从「人指定问题AI跑」到「AI自己决定下一步研究方向」之间,落差比想象中大。

把当下主要的科研类Agent摆在这三个维度上看。

这张图看下来几个判断点。AlphaEvolve、FunSearch这种工具型求解器集中在左下角,任务相对封闭、验证可自动化,跑得最稳定。

AlphaFold 3、AlphaProteo往中间偏,需要湿实验做最终验证。Claude Opus 4.5和Codex这些通用编码agent占据中间偏左,靠人类工程师指定问题但任务复杂度已经相当高。ChatGPT Deepresearch这类研究辅助agent往右上走,能处理开放调研任务但产出还是给人看的素材。Sakana AI那篇AI Scientist v2孤零零站在右上角,理论上覆盖了从问题提出到论文撰写的完整闭环,但产出的论文质量目前还停留在小型workshop的水平。

值得多说一句的是「能力溢出」这条线。AlphaEvolve那套进化搜索的范式,正在往编程Agent方向扩散。Cursor、Cline已经开始尝试在自己的产品里加入类似的iterative refinement loop,让模型不是单次生成代码,而是在评估器反馈下自我迭代。这条路如果走通了,coding agent的真实可用性会再上一个台阶。

而从右往左的扩散更难。第三档AI Scientist要往中间档走,需要解决两个硬问题,目标对齐(怎么让AI提出真正有价值的研究问题)和评估方法(怎么自动判断一篇研究是不是「好研究」)。这两个问题在2026年5月的今天都没有公认答案。所以右上角那一档至少还要再卡两到三年。

AlphaEvolve的真正价值在于它把第一档做透了,并且证明了一件事,只要目标函数定义清晰,AI在某些数学和工程问题上已经稳定超过人类。这个结论给第二档和第三档都提供了底气。如果连一个进化式coding agent都能在20%的开放数学问题上推进人类前沿,那么更复杂的Agent去做研究辅助的可信度就高很多。

国内目前在做什么

这一段值得专门讲。AlphaEvolve出来一年之后,国内的对标动作其实并不少,但都没出圈。

阿里达摩院在做类似的进化搜索方向,主要应用在分子设计和材料科学上。北京智源研究院联合清华搞了一套基于Qwen3的科学发现框架,在化学合成路径优化上有些早期结果。中科院计算所有一支团队在做电路设计的进化优化,有点像AlphaEvolve在TPU上做的事。

但有一个能力差距是绕不开的。AlphaEvolve那套架构最关键的不是evolutionary loop(这个本身是上世纪的技术),而是Gemini 2.0 Flash+Pro组合的ensemble能稳定输出高质量的代码变异。这一档需要顶级基座模型托底。Qwen3.7、DeepSeek V4在编程能力上跟Gemini 2.0 Pro已经接近,但在Flash档位的成本+质量平衡上还有差距。短期内国内做出AlphaEvolve级别的系统,瓶颈不在算法,在于底座模型的成本曲线。

不过这件事的窗口期不算长。如果Qwen3.7-Flash、DeepSeek V4-Flash这种轻量推理模型在年底前能把成本压到Gemini 2.0 Flash的水平,国内对标AlphaEvolve的系统可以期待2027年初看到。

几个还没看清楚的点

写到这需要诚实一点。AlphaEvolve虽然成绩亮眼,但有几个地方至今没有完全披露。

那48次乘法的算法本身是怎么被找到的,论文里没有给完整的进化路径。也就是说,外界知道结果,但不知道这个结果是Gemini在第几代变异里跑出来的、是单次直觉还是多步累积。这对理解AI的「数学创造力」的边界相当关键。

可复现性是另一个问题。AlphaEvolve目前不是开源的。Google提供了一些研究合作渠道,但代码、prompt模板、evaluator的具体实现都没有公开。学术界和工业界外部团队没法独立复现75%重新发现+20%超越的统计结果。这是个明显的局限。

第三档AI Scientist还有多远,没人有答案。AlphaEvolve证明了在第一档上AI能突破人类,但第三档(自主提出研究问题)需要的能力跟代码进化是两回事。两者之间的gap可能比想象中大得多。

写在最后

AlphaEvolve一周年值得纪念,它证明了AI在某些数学和工程问题上已经能稳定超过人类,证明了进化搜索+大模型这个组合在工业界已经能回收成本,证明了第一档的工具型科学发现已经从demo阶段走入了生产环境。

对AI圈做应用的同学来说,这件事的启示比技术细节更重要。如果你的业务里有一个目标函数足够明确、评估器足够便宜、搜索空间足够丰富的问题,AlphaEvolve那套范式可以直接套用。这不需要等Google开源,搭一个进化式coding agent的工程难度,2026年的今天比一年前低了一个量级。Cursor、Cline、Codex都已经具备了类似的代码生成能力,差的就是进化loop和evaluator这层壳。

我自己最大的感受是,过去一年AI圈的注意力都被大模型本身吸走了,但AlphaEvolve提醒了一件事,真正改变行业的不一定是更大的模型,可能是把现有模型组合得更聪明的那套架构。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 石化人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AlphaEvolve到底是个什么东西
  • 4×4矩阵乘法那48次乘法的分量
  • 50多个开放数学问题,AI到底解了多少
  • Google内部的真实战绩
  • AI Scientist这条路2026年走到哪了
  • 国内目前在做什么
  • 几个还没看清楚的点
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档