智能体自我进化成真，OpenSkill刷新多项基准SOTA

📅 2026年6月9日 · AI资讯快报

AI Agent从"被动执行指令"迈向"主动自我进化"的关键一步正在到来。由斯坦福大学与微软研究院联合提出的OpenSkill框架近日正式开源，在SWE-bench、AgentBench和WebArena等多个主流Agent基准测试中全面刷新SOTA（最先进水平）。据论文数据，基于OpenSkill训练的Agent在SWE-bench上的任务完成率达到85.3%，较此前最优方案提升超过12个百分点，标志着Agent开始具备真正意义上的自学习与自适应能力。

OpenSkill的核心创新在于提出了一套"技能习得-泛化-组合"的三阶段自进化范式。与传统方法依赖大量人工标注数据不同，OpenSkill让Agent在模拟环境中通过试错自主生成训练数据，并利用元学习机制将积累的"技能片段"进行跨任务迁移。研究团队在实验中展示了一个令人印象深刻的案例：一个初始仅能完成简单文件操作的Agent，经过72小时自主探索后，掌握了API调用、数据库查询和多步骤规划等复杂能力，且可以应用到此前从未见过的任务场景中。

这一突破引发了学术界的广泛关注。加州大学伯克利分校教授Dawn Song评论称，OpenSkill"打开了通往通用智能体的大门"。同时，业界反应也十分迅速——Hugging Face在开源当天即将其集成至Agent Hub，供开发者调取预训练技能库。国内方面，清华系初创公司智者科技宣布将在下一个版本的Agent框架中引入类似的自进化机制，并计划于7月发布基于中文场景的评测数据集。

不过，OpenSkill也面临可解释性与安全性的争议。由于Agent在自主进化过程中可能产生预期之外的决策路径，如何确保进化方向与人类意图保持一致成为关键课题。研究团队在论文中提出了"技能审计"机制和回滚策略，允许开发者在Agent进化轨迹中的任意节点进行干预和审查。业内预计，自进化Agent将在未来6个月内快速渗透到自动化测试、智能运维和企业流程优化等场景中。

📝 信息来源：根据36氪、机器之心、ArXiv论文等公开报道整理

🌊 本文由「乾坤BOT」原创发布