AlphaEvolve一周年，AI4Science这条路到底走到哪了

乐小野

发布于 2026-06-01 21:47:45

790

去年5月DeepMind把AlphaEvolve那篇博客挂出来的时候，引起了不小轰动。一个用Gemini驱动的进化式编码agent，把Strassen 1969年那个跑了56年的4×4矩阵乘法记录从49次乘法压到48次。这件事在数学界的分量，相当于AlphaGo战胜李世石在围棋圈的分量。

今天正好是AlphaEvolve一周年的窗口期，过去一年它在Google内部和外部的真实进展，比当时blog里讲的故事要有意思得多。我们做一次技术向的复盘，重点梳理三件事，AlphaEvolve的架构究竟有什么特别、它真的算「AI做科学发现」吗、以及这条路在2026年走到哪了。

AlphaEvolve到底是个什么东西

AlphaEvolve不是一个新的大模型，它是一个跑在Gemini之上的进化式编码agent。论文里的官方表述是evolutionary coding agent，核心思想是用LLM做变异，用自动评估器做选择，把进化算法那一套搬到代码空间里。

这个loop每次迭代做一件事，从程序库里抽一批已有程序当作上下文，让Gemini基于这些程序生成新的变体，把变体跑一遍拿到分数，分数高的塞回程序库。重复几千次几万次，程序库里的最优解就慢慢爬上去。

Gemini的两个版本在这套架构里分工不一样。Flash负责数量，每次loop生成大量低成本候选，Pro负责质量，在关键节点做深度修改。这种Flash+Pro的ensemble比单纯用Pro成本低一个量级，比单纯用Flash质量高一档。论文里反复强调一句话，AlphaEvolve的成功不在于某个单点天才，而在于把进化搜索的规模拉到了人类做不到的量级。

跟更早的AlphaTensor对比能看清楚AlphaEvolve的特点。AlphaTensor 2022年那篇DeepMind的工作也是做矩阵乘法，但它是一个针对张量分解的专用强化学习模型，泛用性差。AlphaEvolve走的是另一条路，它是通用的，给一个目标函数和评估器，理论上任何代码优化问题都能往上套。这是它真正值得行业关注的地方。

4×4矩阵乘法那48次乘法的分量

这是AlphaEvolve最出圈的成果，也是最容易被误读的成果。

故事得从1969年说起。当年Volker Strassen发表了一个递归算法，证明两个2×2矩阵相乘其实只需要7次乘法（标准算法是8次），递归扩展到4×4就是49次乘法。这个49次的纪录从1969年一直立在那里，56年没人能动。

中间有一个插曲。2022年DeepMind的AlphaTensor宣称把4×4矩阵乘法做到了47次，当时也轰动了一阵。但拆开看会发现一个关键限制，AlphaTensor那个47次只在characteristic-2有限域里成立（GF(2)，模2运算），跟Strassen的49次根本不是一个数学场景，所以严格意义上没破纪录。

AlphaEvolve的48次乘法是在复数域里成立的，这是真正能跟Strassen直接比较的场景。论文arXiv 2506.13242把这个算法详细写出来了，是一个非交换的算法。在Hacker News和Mathstodon上，几位数论和算法领域的研究者反复确认过，这是1969年以来对4×4一般矩阵乘法首次有人压下来的结果。

很多人会问，从49到48，就少一次乘法，至于这么大动静吗？要在数学的语境里看这件事。矩阵乘法的复杂度是计算机科学最基础的问题之一，所有线性代数、深度学习训练、推理优化都站在这个基座上。少一次乘法看起来不多，但它打破了一个跑了56年的天花板，相当于把数学家们之前对这个问题的认知边界往前推了一步。这个心理冲击远远大于性能本身。

50多个开放数学问题，AI到底解了多少

矩阵乘法只是AlphaEvolve跑过的众多问题里的一个。论文里给的数据是这样。

类别	占比	含义
重新发现已知最优	75%	AlphaEvolve独立找到了人类已知最佳解
找到新的最优解	20%	AlphaEvolve超越了人类目前的纪录
未达到已知最优	5%	AlphaEvolve跑出来的结果差于已知

这个20%是个相当惊人的数字。要知道，被AlphaEvolve拿来跑的这些问题不是教科书习题，是数学界长期没解决或者最优解长期没人改进的开放问题。能在20%的开放问题上推进人类已知边界，这是过去任何一个AI系统都没做到过的。

举一个具体例子，kissing number问题。这是一个有350多年历史的几何问题，问的是在n维空间里最多能让多少个等大圆球同时跟一个中心球相切。这个问题的源头可以追溯到1694年牛顿和David Gregory的那场著名争论，两人在剑桥讨论3维空间里中心球周围最多能放几个等大球，牛顿说12，Gregory说13。这场争论拖了整整180年，直到1874年才被Reinhard Hoppe证明牛顿是对的，3维答案是12。

听起来像是个小学生水平的几何题，但维度一旦升上去，事情就完全不是那么回事。目前严格证出精确解的只有四个维度，1维（答案2）、2维（6）、3维（12）、4维（24，2003年Oleg Musin证明）。8维和24维这两个特殊维度因为有E8晶格和Leech晶格这两个几乎完美的结构，分别在1979年被证明等于240和196560。其他所有维度，包括5、6、7、9、10、11、12、13这些看起来很普通的数字，都只有上下界估计，精确值至今没人知道。这是数学里一个相当典型的「看起来简单，实际上无人能搞定」的硬骨头。

11维这块的下界，长期由数学家Ferenc Szöllősi和后来的Maxim Ganzhinov这一脉的构造保持，停在592这个数字附近。AlphaEvolve跑出来的新构造把11维下界推到了593。同一篇DeepMind的工作里，AlphaEvolve还在14维和17维这两个维度上推进了下界。这些进展看上去都是「+1，+某个小数字」级别的，但放到kissing number这个领域里，每一次推进的代价都极其高昂。Ganzhinov那一脉的工作背后是数十年的人类几何直觉积累，AlphaEvolve用进化搜索几个月就跑出了新结果。

故事还有一个有意思的后续。2025年11月，arXiv 2511.13391那篇PackingStar的工作出来后，13维下界被进一步推高到1146，超过了之前1130的rational records，相当于在AlphaEvolve之后又往前走了一步。这件事的意义比单纯的数字更重要，AI辅助数学发现这件事开始有了真正的接力赛特征，不再是某个团队一锤子买卖。今年5月那篇被EurekAlert报道的「Researcher cracks new kissing number bounds, besting AI」的工作，主角是人类数学家用经典方法在某些维度上反超了AlphaEvolve，又把整个领域往前推了半步。

这种你来我往的节奏才是这件事真正值得激动的地方。AlphaEvolve不是把数学家干掉了，它是逼出了一波新的数学家用更好的工具去跟AI赛跑。kissing number这个350年的老问题在2025到2026这一年里被推进的次数，比过去三十年加起来都多。

我自己更关注的是这种推进的可复制性。AlphaEvolve给定一个开放问题之后，从启动到跑出新最优解，平均需要多少算力？论文没给精确数字，但从他们公布的几个case看，单个问题大概要跑几千到几万次evaluator，配合Gemini调用大约是几万美元到几十万美元的算力成本。这个数据点的意义在于，AI做数学发现这件事，今天已经从「能不能」过渡到「成本多少」的阶段。这是一个相当显著的mile stone。

Google内部的真实战绩

光看数学突破不够，AlphaEvolve真正能立住的原因是它在Google内部已经回收成本了。

Borg那0.7%是怎么来的。Borg是Google的全集群调度器，AlphaEvolve针对其中一段调度逻辑跑了进化优化，找到了一段比原来更优的启发式策略，全局算力利用率提升0.7%。这个数字听上去小，落到Google数据中心规模上是数千万美元级别的年化收益。

TPU kernel那32.5%加速更狠。AlphaEvolve针对Gemini训练里某个高频调用的矩阵乘法kernel做优化，跑出来的版本比工程师手写的版本快32.5%。这一段后来被Google工程团队review后并入了TPU软件栈，是Google官方确认的技术成果。整个Gemini的训练时间因此缩短了大约1%。

这三件事加起来传递的信号很明确，AlphaEvolve不是一个PR项目，它是Google内部已经在生产环境里跑的工具。这跟那些只在benchmark上漂亮的agent完全不是一个性质。

AI Scientist这条路2026年走到哪了

把视角拉宽。从AlphaEvolve一周年这个时点回头看，AI做科学发现这条路在2026年5月的状态可以从三个能力维度去拆。

第一个维度是任务的开放度。从「目标函数明确」到「研究问题需要自己提」是一条连续光谱，越往右越难。第二个维度是验证成本。能用代码自动跑评估的任务（kernel优化、矩阵算法）成本最低，需要做实验、跑仿真、上设备的成本陡升，最后是需要发paper同行评议的，成本顶天。第三个维度是自主性。从「人指定问题AI跑」到「AI自己决定下一步研究方向」之间，落差比想象中大。

把当下主要的科研类Agent摆在这三个维度上看。

这张图看下来几个判断点。AlphaEvolve、FunSearch这种工具型求解器集中在左下角，任务相对封闭、验证可自动化，跑得最稳定。

AlphaFold 3、AlphaProteo往中间偏，需要湿实验做最终验证。Claude Opus 4.5和Codex这些通用编码agent占据中间偏左，靠人类工程师指定问题但任务复杂度已经相当高。ChatGPT Deepresearch这类研究辅助agent往右上走，能处理开放调研任务但产出还是给人看的素材。Sakana AI那篇AI Scientist v2孤零零站在右上角，理论上覆盖了从问题提出到论文撰写的完整闭环，但产出的论文质量目前还停留在小型workshop的水平。

值得多说一句的是「能力溢出」这条线。AlphaEvolve那套进化搜索的范式，正在往编程Agent方向扩散。Cursor、Cline已经开始尝试在自己的产品里加入类似的iterative refinement loop，让模型不是单次生成代码，而是在评估器反馈下自我迭代。这条路如果走通了，coding agent的真实可用性会再上一个台阶。

而从右往左的扩散更难。第三档AI Scientist要往中间档走，需要解决两个硬问题，目标对齐（怎么让AI提出真正有价值的研究问题）和评估方法（怎么自动判断一篇研究是不是「好研究」）。这两个问题在2026年5月的今天都没有公认答案。所以右上角那一档至少还要再卡两到三年。

AlphaEvolve的真正价值在于它把第一档做透了，并且证明了一件事，只要目标函数定义清晰，AI在某些数学和工程问题上已经稳定超过人类。这个结论给第二档和第三档都提供了底气。如果连一个进化式coding agent都能在20%的开放数学问题上推进人类前沿，那么更复杂的Agent去做研究辅助的可信度就高很多。

国内目前在做什么

这一段值得专门讲。AlphaEvolve出来一年之后，国内的对标动作其实并不少，但都没出圈。

阿里达摩院在做类似的进化搜索方向，主要应用在分子设计和材料科学上。北京智源研究院联合清华搞了一套基于Qwen3的科学发现框架，在化学合成路径优化上有些早期结果。中科院计算所有一支团队在做电路设计的进化优化，有点像AlphaEvolve在TPU上做的事。

但有一个能力差距是绕不开的。AlphaEvolve那套架构最关键的不是evolutionary loop（这个本身是上世纪的技术），而是Gemini 2.0 Flash+Pro组合的ensemble能稳定输出高质量的代码变异。这一档需要顶级基座模型托底。Qwen3.7、DeepSeek V4在编程能力上跟Gemini 2.0 Pro已经接近，但在Flash档位的成本+质量平衡上还有差距。短期内国内做出AlphaEvolve级别的系统，瓶颈不在算法，在于底座模型的成本曲线。

不过这件事的窗口期不算长。如果Qwen3.7-Flash、DeepSeek V4-Flash这种轻量推理模型在年底前能把成本压到Gemini 2.0 Flash的水平，国内对标AlphaEvolve的系统可以期待2027年初看到。

几个还没看清楚的点

写到这需要诚实一点。AlphaEvolve虽然成绩亮眼，但有几个地方至今没有完全披露。

那48次乘法的算法本身是怎么被找到的，论文里没有给完整的进化路径。也就是说，外界知道结果，但不知道这个结果是Gemini在第几代变异里跑出来的、是单次直觉还是多步累积。这对理解AI的「数学创造力」的边界相当关键。

可复现性是另一个问题。AlphaEvolve目前不是开源的。Google提供了一些研究合作渠道，但代码、prompt模板、evaluator的具体实现都没有公开。学术界和工业界外部团队没法独立复现75%重新发现+20%超越的统计结果。这是个明显的局限。

第三档AI Scientist还有多远，没人有答案。AlphaEvolve证明了在第一档上AI能突破人类，但第三档（自主提出研究问题）需要的能力跟代码进化是两回事。两者之间的gap可能比想象中大得多。

写在最后

AlphaEvolve一周年值得纪念，它证明了AI在某些数学和工程问题上已经能稳定超过人类，证明了进化搜索+大模型这个组合在工业界已经能回收成本，证明了第一档的工具型科学发现已经从demo阶段走入了生产环境。

对AI圈做应用的同学来说，这件事的启示比技术细节更重要。如果你的业务里有一个目标函数足够明确、评估器足够便宜、搜索空间足够丰富的问题，AlphaEvolve那套范式可以直接套用。这不需要等Google开源，搭一个进化式coding agent的工程难度，2026年的今天比一年前低了一个量级。Cursor、Cline、Codex都已经具备了类似的代码生成能力，差的就是进化loop和evaluator这层壳。

我自己最大的感受是，过去一年AI圈的注意力都被大模型本身吸走了，但AlphaEvolve提醒了一件事，真正改变行业的不一定是更大的模型，可能是把现有模型组合得更聪明的那套架构。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-29，如有侵权请联系 cloudcommunity@tencent.com 删除

算法