没错,就是那个在AI领域屡屡发力的AWS,这次不是开源SDK,而是开源了一种全新的"标准操作程序"(Agent SOPs)——一个用自然语言描述的结构化工作流程,彻底改变了AI Agent的开发方式。
AWS宣布推出新测试基准SWE-PolyBench,目的是评估人工智能程序代理人在多语言环境下,处理真实世界开发任务的能力,涵盖Python、Java、JavaScript与TypeScript四种主流语言,并通过复杂程序代码修改场景,验证代理人在跨文件、跨类别的程序代码导航与理解能力。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果