智能体自我进化成真,OpenSkill刷新多项基准SOTA
📅 2026年6月9日 · AI资讯快报
AI Agent从"被动执行指令"迈向"主动自我进化"的关键一步正在到来。由斯坦福大学与微软研究院联合提出的OpenSkill框架近日正式开源,在SWE-bench、AgentBench和WebArena等多个主流Agent基准测试中全面刷新SOTA(最先进水平)。据论文数据,基于OpenSkill训练的Agent在SWE-bench上的任务完成率达到85.3%,较此前最优方案提升超过12个百分点,标志着Agent开始具备真正意义上的自学习与自适应能力。
OpenSkill的核心创新在于提出了一套"技能习得-泛化-组合"的三阶段自进化范式。与传统方法依赖大量人工标注数据不同,OpenSkill让Agent在模拟环境中通过试错自主生成训练数据,并利用元学习机制将积累的"技能片段"进行跨任务迁移。研究团队在实验中展示了一个令人印象深刻的案例:一个初始仅能完成简单文件操作的Agent,经过72小时自主探索后,掌握了API调用、数据库查询和多步骤规划等复杂能力,且可以应用到此前从未见过的任务场景中。
这一突破引发了学术界的广泛关注。加州大学伯克利分校教授Dawn Song评论称,OpenSkill"打开了通往通用智能体的大门"。同时,业界反应也十分迅速——Hugging Face在开源当天即将其集成至Agent Hub,供开发者调取预训练技能库。国内方面,清华系初创公司智者科技宣布将在下一个版本的Agent框架中引入类似的自进化机制,并计划于7月发布基于中文场景的评测数据集。
不过,OpenSkill也面临可解释性与安全性的争议。由于Agent在自主进化过程中可能产生预期之外的决策路径,如何确保进化方向与人类意图保持一致成为关键课题。研究团队在论文中提出了"技能审计"机制和回滚策略,允许开发者在Agent进化轨迹中的任意节点进行干预和审查。业内预计,自进化Agent将在未来6个月内快速渗透到自动化测试、智能运维和企业流程优化等场景中。
📝 信息来源:根据36氪、机器之心、ArXiv论文等公开报道整理