分享
RG-Evolution Agent@homepage
输入“/”快速插入内容
RG-Evolution Agent@homepage
用户534
用户534
用户9528
用户9528
2025年7月11日修改
作者:GenSI研究组 卢天彧
仅供阅读 禁止商用 转载请与我们取得联系 谢谢!
Evolution Agent
•
Clue:
三篇都 from Google,evolution-style-agent,1)2)聚焦在 math & coding,FunSearch 是 AlphaEvolve 的前身,3)AI-co-scientist 是 multi-agent workflow 的框架,仔细看其实也是 FunSearch evolution 的思路,本质是用 Elo-tournament 来搞定 evaluate,因此能 target 在 science 任务上
•
Background Knowledge(大概了解就好):
Genetic Algorithm;Elo
FunSearch: Mathematical discoveries from program search with large language models; [DeepMind; Nature; 2023.12]
核心价值在于给出了一个成功的示例: 在有可靠的 feedback 的场景下(
safeguard against LLMs’ hallucinations
),我们真的可以从 LLM 中
压榨
出超越人类智能的某些科学发现——左脚踩右脚,启发式地给出越来越好的
constructive
解(界)
•
Framework:
sampler-evaluator-db(memory) 构成的 loop(async,distributed)
(boilerplate || funcs(history)) >> LLM(Codey) >> evaluator >> func(new) >> database >> evolution
21%
64%
15%
•
Results-Math:
1)cap-set problem 2)online bin packing problem
•
Ablation:
importance of 'evolution',个人理解是用 island-evolution 来迭代自己的 memory,本质就是让 LLM 做启发式搜索,我们自己写 A*/greedy 确实 priority 时没法充分利用历史的一些有价值的 practice
20%
52%
28%
AlphaEvolve: A coding agent for scientific and algorithmic discovery; [DeepMind; White-Paper; 2025.05]
按照 DeepMind 的惯例,放出来的基本都是一年前的成果,exactly Funsearch 的精神延续,一方面 LLM 两年后能力已经蜕变了,远不止能优化一个 priority function,另一方面
Google 其实持续地在 harvest Funsearch/Alpha-Evolve 的成果
:data center stack/kernel,所以最后一下给出了很惊艳的结果
45%
55%
•
Framework:
FunSearch 上做加法,++代码级 diff(包括彻底重写),++Gemini2.0Flash/Gemin2.0Pro,++stronger evaluator(hierarchical,multi-metrics)
•
Results-Math:
涵盖 analysis/combinatorics and number theory/geometry and packing,宣发里出圈的快速矩阵乘次数优化反而是 AlphaTensor 就有的一些进展
•
Results-Application:
data-center scheduling(packing 的应用)/
写 kernel
!(tile size)/
写 verilog!
•
Ablation:
wo/ meta-prompt, evolution, background context, full-file-diff,evolution 很重要,但一个容易被忽略的核心是这类 constructive 问题的特质:
hard-to-construct,easy-to-validate
38%
19%
43%
*OpenEvolve: An open-source implementation of the AlphaEvolve system [2.8k star]