进化算法的一些思考

less than 1 分钟阅读

本页目录

我越来越觉得，进化算法这两年重新变得“现实”，并不是因为它突然拥有了更坚实的数学地位，而是因为我们手上的问题变了。

过去很长一段时间里，进化算法在很多人眼里都不算一个特别“高级”的方向。它当然有自己的体系，也有自己的成功案例，但在不少时候，它给人的印象仍然更接近一种受进化论启发的随机搜索。你给它一个环境，给它一个适应度函数，再配上选择、交叉、变异这些机制，它就在巨大的搜索空间里不断试错、不断保留相对更好的个体。

这套东西并不神秘。也正因为不神秘，它常常显得不够优雅。

如果一个问题本身有更强的结构，有更明确的数学描述，有更直接的梯度信息，或者有更针对性的优化方法，那么很多人自然不会优先想到进化算法。原因很简单：它太“普适”了。普适的另一面，往往就是不够锐利、不够可解释、也不够贴着问题本身。你很难像分析一个漂亮的解析方法那样去分析它，也很难像推导一个明确的优化目标那样去推导它。很多时候，你得到的只是一个经验上可用的、被评价函数和搜索预算共同塑形出来的过程。

所以如果只看传统语境，我完全能理解为什么很多人会对进化算法没有太高评价。它不够优雅，不够干净，也经常给人一种“暴力但能跑”的感觉。

但问题在于，今天越来越重要的一类任务，本身就不是那种结构漂亮、目标明确、可微可解的问题。

Agent 和创造性任务，恰好改变了问题的形状

Agent 任务和很多创造性任务有一个非常关键的共同点：它们往往很难被精确定义，但又很容易被评价。

这句话看起来简单，但我觉得它几乎解释了为什么进化算法会重新变得现实。

比如说，你让一个 Agent 去探索某种行为策略，或者去生成一套更有效的工作流，或者去尝试一类提示词结构，很多时候你并不能提前写出一个完美的“正确解”描述。你很难直接告诉系统，什么样的策略一定最好，什么样的提示一定最优，什么样的多步行为链一定最合理。因为这些对象本身就带着强烈的开放性、组合性和语境依赖。

但与此同时，你又常常可以写出一个还不错的评价函数。

你可以评估它任务完成得怎么样，成本高不高，是否稳定，是否重复犯错，是否满足测试，是否通过某种自动检查，是否更接近你想要的风格，是否更符合某类行为约束。换句话说，你未必知道答案长什么样，但你往往知道什么样的结果更好。

这正是进化算法擅长介入的地方。

它不要求你先把答案写出来，它只要求你能区分“哪个更好”。一旦这个前提成立，后面的事情就会突然变得现实起来。因为对于这类任务，真正困难的地方往往不是生成候选解，而是如何在海量可能性里筛出更值得保留的方向。而进化算法从第一天起做的，本来就是这件事。

过去大家嫌弃它“像随机搜索”，今天反而成了优点

我觉得进化算法有一个很有意思的地方：它过去最常被批评的特征，在 Agent 和创造性任务里反而会变成优点。

过去人们嫌它像随机搜索，是因为在很多经典优化问题里，“像随机搜索”意味着你没有很好地利用问题结构，也意味着方法不够针对。但在开放任务里，事情正好会反过来。

因为开放任务本来就没有那么强的问题结构给你利用。

在这种时候，一个能够容纳试错、容纳扰动、容纳非线性改写、容纳多样化候选解并且持续保留有效变体的框架，反而显得很自然。你不再强求系统一步到位地得到最优答案，而是接受它先提出一批并不完美的候选，再通过评价、筛选和再生成慢慢逼近更好的区域。

这件事放在提示词生成、行为规则探索、Agent 工作流优化、代码策略变体搜索上都很顺。因为这些对象本来就不是精确优化问题里的“参数”，它们更像是高维、离散、结构化、而且很容易互相耦合的行为片段。你很难对它们做漂亮的解析推导，却很适合对它们做持续的候选生成和外部评估。

从这个意义上说，进化算法并不是突然变聪明了，而是我们终于遇到了一批特别适合“先生成，再评价，再保留”的任务。

大模型让“变异”变得更像样了

如果说任务性质解释了为什么进化算法重新有意义，那么大模型解释的，就是为什么它现在终于不只是一个概念上的可能性，而是一个工程上越来越可行的东西。

传统进化算法当然也能做搜索，但它过去有一个很现实的问题：候选解的生成质量经常不够高。你当然可以靠交叉、变异不断扰动，但很多时候，这种扰动是盲的，是局部的，也是非常低效的。你能搜索，但搜索出来的东西未必像样。

大模型出现之后，这件事发生了变化。

因为大模型天然擅长生成结构化候选解。无论是代码、规则、提示词、工作流描述，还是多步行为策略，它都能给出比传统随机扰动更有语义、更成体系的改写。换句话说，今天的“变异”不再只是无意义地抖动参数，而越来越像是一种带着强先验的候选解生成。

这会直接改变整个搜索过程的效率。因为你不再是在纯噪声里盲搜，而是在一个已经带有相当多语义结构和经验偏置的生成器上做演化。很多原来完全不现实的搜索空间，也因此开始变得可探索。

所以我会觉得，今天进化算法和大模型的结合，本质上不是“老方法复活”，而是“老框架终于接上了一个足够强的候选解生成器”。

自动评估器让这件事第一次真正闭环

但只有大模型还不够。因为如果你只有生成，没有评估，那你得到的还是一堆花哨但不可裁决的候选方案。

进化算法重新变得现实，另一个特别关键的原因是：我们现在越来越容易为很多任务写出自动评估器了。

这件事听起来没有那么性感，但它的重要性其实非常高。因为进化算法的核心从来都不是“模仿生物”，而是“让评价函数成为环境”。只要环境能稳定裁决，搜索就能持续推进；一旦环境不能裁决，进化就会迅速退化成自我陶醉。

在 Agent 语境里，这个环境可以是测试集、编译结果、执行成功率、工具调用结果、成本统计、人工反馈的代理指标，甚至是一整套对抗式评估结构。对于创造性任务，它也可以是更弱但仍然有效的评价器，比如风格一致性、用户偏好命中率、转化效果、人工筛选后的偏好模型等等。

一旦生成和评估这两个环节都具备了，进化算法就不再只是一个“理论上可以试试”的套路，而会变成一个相当务实的工程框架：不断提出候选解，不断自动打分，不断保留更好的版本，再围绕这些版本继续搜索。

AlphaEvolve 为什么很值得看

我觉得 AlphaEvolve 是这件事里一个非常值得显式写出来的例子。

Google DeepMind 在官方介绍里，把它描述成一种由 Gemini 模型提出程序、由自动评估器验证和打分、再由进化框架持续保留更优候选的系统。这个结构本身并不花哨，但它非常说明问题。

真正值得注意的地方不是“它也用了进化算法”，而是它说明了一件更重要的事：当候选解生成足够强、评估器足够明确时，进化式搜索可以在非常复杂的代码和算法空间里产生实际结果。

AlphaEvolve 的意义，不只是它做出了一些具体成果，而是它把一个很多人过去觉得“有点土”的思路，重新放回了前沿系统里。它并没有证明进化算法突然变成了万能方法，但它至少证明了，进化式框架在某些高价值问题上，已经不再只是实验室里的老思路，而是可以和大模型、代码生成、自动评估器一起组成一个真正能工作的系统。

我觉得这一点会被很多人低估。因为大家很容易把注意力全放在“大模型生成了什么”上，却忽略了“什么样的环境让这些生成结果能被筛出来、被累积下来、被推动到更优区域”。从这个角度看，AlphaEvolve 其实不是单纯展示模型更聪明，而是在展示一种新的搜索闭环开始变得实用。

进化算法不会变成银弹，但它会重新变成工具

当然，我并不觉得这意味着进化算法会重新统治一切。

它的问题并没有消失。它仍然昂贵，仍然吃预算，仍然依赖评价函数，仍然会受到搜索空间设计和选择压力设计的强烈影响。很多时候，它也仍然不够可解释，不够优雅，不够让人满意。对于那些目标明确、结构强、已经有成熟优化方法的问题，它大概率也不会突然变成首选。

但我现在越来越相信，进化算法会重新变成一种非常现实的工具。不是因为它在理论上变得更完美了，而是因为 Agent、代码系统和创造性任务这类问题，天然就更适合评价驱动的搜索；而大模型和自动评估器又刚好补上了它过去最欠缺的那两块能力。

所以如果今天再让我概括这件事，我更愿意这样说：

进化算法并不是重新变得“正确”了，而是重新变得“有用”了。

对于那些你很难直接写出答案、却能够持续判断什么更好的任务，它很可能会越来越常见。尤其是在 Agent 行为探索、工作流搜索、规则发现、提示词演化、代码变体优化这些场景里，我觉得它不会是终局，但会越来越像一个绕不过去的现实选项。

参考资料

AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms