less than 1 分钟阅读

我越来越觉得,进化算法这两年重新变得“现实”,并不是因为它突然拥有了更坚实的数学地位,而是因为我们手上的问题变了。

过去很长一段时间里,进化算法在很多人眼里都不算一个特别“高级”的方向。它当然有自己的体系,也有自己的成功案例,但在不少时候,它给人的印象仍然更接近一种受进化论启发的随机搜索。你给它一个环境,给它一个适应度函数,再配上选择、交叉、变异这些机制,它就在巨大的搜索空间里不断试错、不断保留相对更好的个体。

这套东西并不神秘。也正因为不神秘,它常常显得不够优雅。

如果一个问题本身有更强的结构,有更明确的数学描述,有更直接的梯度信息,或者有更针对性的优化方法,那么很多人自然不会优先想到进化算法。原因很简单:它太“普适”了。普适的另一面,往往就是不够锐利、不够可解释、也不够贴着问题本身。你很难像分析一个漂亮的解析方法那样去分析它,也很难像推导一个明确的优化目标那样去推导它。很多时候,你得到的只是一个经验上可用的、被评价函数和搜索预算共同塑形出来的过程。

所以如果只看传统语境,我完全能理解为什么很多人会对进化算法没有太高评价。它不够优雅,不够干净,也经常给人一种“暴力但能跑”的感觉。

但问题在于,今天越来越重要的一类任务,本身就不是那种结构漂亮、目标明确、可微可解的问题。

Agent 和创造性任务,恰好改变了问题的形状

Agent 任务和很多创造性任务有一个非常关键的共同点:它们往往很难被精确定义,但又很容易被评价。

这句话看起来简单,但我觉得它几乎解释了为什么进化算法会重新变得现实。

比如说,你让一个 Agent 去探索某种行为策略,或者去生成一套更有效的工作流,或者去尝试一类提示词结构,很多时候你并不能提前写出一个完美的“正确解”描述。你很难直接告诉系统,什么样的策略一定最好,什么样的提示一定最优,什么样的多步行为链一定最合理。因为这些对象本身就带着强烈的开放性、组合性和语境依赖。

但与此同时,你又常常可以写出一个还不错的评价函数。

你可以评估它任务完成得怎么样,成本高不高,是否稳定,是否重复犯错,是否满足测试,是否通过某种自动检查,是否更接近你想要的风格,是否更符合某类行为约束。换句话说,你未必知道答案长什么样,但你往往知道什么样的结果更好。

这正是进化算法擅长介入的地方。

它不要求你先把答案写出来,它只要求你能区分“哪个更好”。一旦这个前提成立,后面的事情就会突然变得现实起来。因为对于这类任务,真正困难的地方往往不是生成候选解,而是如何在海量可能性里筛出更值得保留的方向。而进化算法从第一天起做的,本来就是这件事。

过去大家嫌弃它“像随机搜索”,今天反而成了优点

我觉得进化算法有一个很有意思的地方:它过去最常被批评的特征,在 Agent 和创造性任务里反而会变成优点。

过去人们嫌它像随机搜索,是因为在很多经典优化问题里,“像随机搜索”意味着你没有很好地利用问题结构,也意味着方法不够针对。但在开放任务里,事情正好会反过来。

因为开放任务本来就没有那么强的问题结构给你利用。

在这种时候,一个能够容纳试错、容纳扰动、容纳非线性改写、容纳多样化候选解并且持续保留有效变体的框架,反而显得很自然。你不再强求系统一步到位地得到最优答案,而是接受它先提出一批并不完美的候选,再通过评价、筛选和再生成慢慢逼近更好的区域。

这件事放在提示词生成、行为规则探索、Agent 工作流优化、代码策略变体搜索上都很顺。因为这些对象本来就不是精确优化问题里的“参数”,它们更像是高维、离散、结构化、而且很容易互相耦合的行为片段。你很难对它们做漂亮的解析推导,却很适合对它们做持续的候选生成和外部评估。

从这个意义上说,进化算法并不是突然变聪明了,而是我们终于遇到了一批特别适合“先生成,再评价,再保留”的任务。

大模型让“变异”变得更像样了

如果说任务性质解释了为什么进化算法重新有意义,那么大模型解释的,就是为什么它现在终于不只是一个概念上的可能性,而是一个工程上越来越可行的东西。

传统进化算法当然也能做搜索,但它过去有一个很现实的问题:候选解的生成质量经常不够高。你当然可以靠交叉、变异不断扰动,但很多时候,这种扰动是盲的,是局部的,也是非常低效的。你能搜索,但搜索出来的东西未必像样。

大模型出现之后,这件事发生了变化。

因为大模型天然擅长生成结构化候选解。无论是代码、规则、提示词、工作流描述,还是多步行为策略,它都能给出比传统随机扰动更有语义、更成体系的改写。换句话说,今天的“变异”不再只是无意义地抖动参数,而越来越像是一种带着强先验的候选解生成。

这会直接改变整个搜索过程的效率。因为你不再是在纯噪声里盲搜,而是在一个已经带有相当多语义结构和经验偏置的生成器上做演化。很多原来完全不现实的搜索空间,也因此开始变得可探索。

所以我会觉得,今天进化算法和大模型的结合,本质上不是“老方法复活”,而是“老框架终于接上了一个足够强的候选解生成器”。

自动评估器让这件事第一次真正闭环

但只有大模型还不够。因为如果你只有生成,没有评估,那你得到的还是一堆花哨但不可裁决的候选方案。

进化算法重新变得现实,另一个特别关键的原因是:我们现在越来越容易为很多任务写出自动评估器了。

这件事听起来没有那么性感,但它的重要性其实非常高。因为进化算法的核心从来都不是“模仿生物”,而是“让评价函数成为环境”。只要环境能稳定裁决,搜索就能持续推进;一旦环境不能裁决,进化就会迅速退化成自我陶醉。

在 Agent 语境里,这个环境可以是测试集、编译结果、执行成功率、工具调用结果、成本统计、人工反馈的代理指标,甚至是一整套对抗式评估结构。对于创造性任务,它也可以是更弱但仍然有效的评价器,比如风格一致性、用户偏好命中率、转化效果、人工筛选后的偏好模型等等。

一旦生成和评估这两个环节都具备了,进化算法就不再只是一个“理论上可以试试”的套路,而会变成一个相当务实的工程框架:不断提出候选解,不断自动打分,不断保留更好的版本,再围绕这些版本继续搜索。

AlphaEvolve 为什么很值得看

我觉得 AlphaEvolve 是这件事里一个非常值得显式写出来的例子。

Google DeepMind 在 官方介绍 里,把它描述成一种由 Gemini 模型提出程序、由自动评估器验证和打分、再由进化框架持续保留更优候选的系统。这个结构本身并不花哨,但它非常说明问题。

真正值得注意的地方不是“它也用了进化算法”,而是它说明了一件更重要的事:当候选解生成足够强、评估器足够明确时,进化式搜索可以在非常复杂的代码和算法空间里产生实际结果。

AlphaEvolve 的意义,不只是它做出了一些具体成果,而是它把一个很多人过去觉得“有点土”的思路,重新放回了前沿系统里。它并没有证明进化算法突然变成了万能方法,但它至少证明了,进化式框架在某些高价值问题上,已经不再只是实验室里的老思路,而是可以和大模型、代码生成、自动评估器一起组成一个真正能工作的系统。

我觉得这一点会被很多人低估。因为大家很容易把注意力全放在“大模型生成了什么”上,却忽略了“什么样的环境让这些生成结果能被筛出来、被累积下来、被推动到更优区域”。从这个角度看,AlphaEvolve 其实不是单纯展示模型更聪明,而是在展示一种新的搜索闭环开始变得实用。

进化算法不会变成银弹,但它会重新变成工具

当然,我并不觉得这意味着进化算法会重新统治一切。

它的问题并没有消失。它仍然昂贵,仍然吃预算,仍然依赖评价函数,仍然会受到搜索空间设计和选择压力设计的强烈影响。很多时候,它也仍然不够可解释,不够优雅,不够让人满意。对于那些目标明确、结构强、已经有成熟优化方法的问题,它大概率也不会突然变成首选。

但我现在越来越相信,进化算法会重新变成一种非常现实的工具。不是因为它在理论上变得更完美了,而是因为 Agent、代码系统和创造性任务这类问题,天然就更适合评价驱动的搜索;而大模型和自动评估器又刚好补上了它过去最欠缺的那两块能力。

所以如果今天再让我概括这件事,我更愿意这样说:

进化算法并不是重新变得“正确”了,而是重新变得“有用”了。

对于那些你很难直接写出答案、却能够持续判断什么更好的任务,它很可能会越来越常见。尤其是在 Agent 行为探索、工作流搜索、规则发现、提示词演化、代码变体优化这些场景里,我觉得它不会是终局,但会越来越像一个绕不过去的现实选项。

参考资料

文章信息

更新于: