12小时登顶MLE-bench!深度解析上海AI Lab开源算法进化框架MLEvolve

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:从“自动写代码”到“自主设计算法”的跨越

在人工智能领域,让模型编写简单的代码片段已不再是难题。然而,面对复杂的机器学习(ML)竞赛——如Kaggle中涉及的数据处理、特征工程、模型调优等综合性任务,单一的代码生成能力显得捉襟见肘。真正的挑战在于:AI能否像顶尖的人类选手一样,在不断的试错与总结中进化自己的算法方案?
近日,上海人工智能实验室(上海AI Lab)推出的开源算法进化框架 MLEvolve 给出了肯定的答案。该框架在OpenAI发布的MLE-bench基准测试中,仅耗时12小时便登顶榜首,以61.33%的奖牌率超越了众多运行24小时的基线方法。这一突破不仅展示了AI在算法发现层面的巨大潜力,也标志着人工智能向自主科学发现迈出了坚实的一步。

核心突破:渐进式蒙特卡洛图搜索(MCGS)

传统的搜索策略往往基于“树状结构”(MCTS),虽然能平衡探索与利用,但不同路径之间信息孤立,导致搜索效率低下。MLEvolve创新性地提出了渐进式蒙特卡洛图搜索(Progressive MCGS),将搜索空间从“线性能”提升到了“网络化”。
首先,MLEvolve引入了时间感知的探索策略。在搜索初期,系统会广泛尝试不同的算法方向;随着时间推移,它会自动聚焦于已被验证有效的区域进行深度优化。其次,它实现了跨分支的融合与轨迹进化。当某条尝试路径陷入瓶颈时,系统不会简单放弃,而是从其他成功的分支中提取关键策略进行“杂交”,从而生成更优的全新方案。这种从“树”到“图”的结构升级,让AI在庞大的算法空间中具备了极高的搜索效率。

经验驱动:赋予AI“过目不忘”的全局记忆

优秀的算法工程师之所以强大,是因为他们能从每一次失败中汲取教训。MLEvolve通过经验驱动的全局记忆层模拟了这一过程。系统会将每一次尝试记录为包含“规划、代码、性能、成败标签”的结构化四元组。
通过结合BM25文本匹配与FAISS向量语义搜索,MLEvolve构建了一个高效的知识中枢。当智能体规划下一步动作时,它会自动检索历史经验: * 强化成功路径:复用此前验证有效的特征工程或模型组合。 * 规避失败陷阱:识别并跳过已知会导致过拟合或报错的方案。
这种差异化的记忆调用机制,确保了智能体在探索过程中“越战越勇”,避免了无谓的重复劳动,这也是其能在12小时内完成24小时工作量的关键所在。

协作体系:多智能体驱动的自进化闭环

MLEvolve并非依靠单一模型,而是构建了一个覆盖ML工程全生命周期的多智能体协作团队。该团队包含八大专业Agent,各司其职: 1. Planner(规划者):负责全局方案设计。 2. Coder(编码者):将方案转化为可执行代码,支持全量生成、分步合成与增量修补三种模式。 3. Reviewer(审查者):负责代码质量把控与数据泄露检测。 4. Evolution & Fusion Agent:专门负责在遇到瓶颈时进行方案的演化与融合。
这种专业化的分工,配合自适应的代码生成模式,使得系统能够精准地对局部代码进行迭代,而不必每次都重写整个项目,极大地提升了系统的稳定性和进化速度。

实验结果:高难度任务中的绝对领先

在MLE-bench的75道Kaggle竞赛题测试中,MLEvolve展现了统治级的表现。特别是在High难度的竞赛中,它以42.22%的表现领跑所有已知方法。
更令人惊叹的是其效率。在相同的硬件预算下,MLEvolve仅用12小时达到的成绩,不仅刷新了纪录,还证明了其算法架构在资源利用上的优越性。这对于未来大规模大模型的自动化科研(AI for Science)具有深远的指导意义。

展望未来:AI驱动的科学发现新范式

MLEvolve不仅是一个竞赛工具,它更是上海AI Lab“书生”科学发现平台(Intern Discovery)的核心引擎。目前,该技术已从单纯的算法优化扩展至生物科学、地球科学等跨学科领域。
随着MLEvolve的全面开源,全球开发者都可以基于这一框架构建自己的自进化AI伙伴。我们正处于从“AI辅助科研”向“AI自主科研”转型的十字路口。通过图结构搜索、全局记忆与多智能体协作的深度融合,AI将不仅是代码的搬运工,更是新算法、新工具的创造者。
如果你想了解更多关于 LLMAGI 以及最新的 AI资讯,欢迎访问 AI门户 获取每日深度解读。

结论

MLEvolve的成功证明了算法发现能力是衡量AI创新能力的核心指标。通过构建“规划→构建→评估→进化”的闭环,AI能够在没有人类干预的情况下,自主探索出复杂问题的最优解。这不仅是机器学习领域的胜利,更是人工智能迈向通用智能的重要里程碑。
了解更多人工智能前沿动态与Prompt技巧,请持续关注 AIGC.BAR
Loading...

没有找到文章