在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。 但真实的软件工程 ...
【新智元导读】Claude又双叒更了!一早,Claude Code上线了「云端自动修复」功能:自主修bug,让PR始终保持绿色。程序员彻底解放双手的这一天终于来了。 这不,今早Claude Code终于上线了「云端自动修复」(auto-fix-in ...
导语:CODING Enterprise 可以让程序员远程协作撸代码。接下来的问题就变成:“老板是不是愿意为员工的终身幸福买单”了。 也许是为了避开程序猿的伤心事,CODING 选择了在 1.11 小光棍节的第二天上线新产品。 CODING,这个在去年收购了 GitCafe 的软件开发平台 ...
假设有一台智能设备,它可以一天自动盖一栋三层小楼,那么我们能否认为它可以30多天盖一座100层的摩天楼呢? 现在就是AI vibecoding几个小时就完成了几万行代码的项目,质量还不错,于是我们能否乐观地认为AI几百个小时就可以完成几百万行代码的项目,并且质量也还不错 很多人认为,AI coding产出可以随时间线性增长,多个AI ...