全球首位AI软件工程师Devin诞生了,它掌握全栈技能云端部署底层代码改bug训练和微调AI模型都不在话下。

发布于: 雪球转发:0回复:0喜欢:0

Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的Airbnb民宿中。

就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管Elad Gil。

这个名叫Andrew的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。

不久前有朋友告诉他:其中一个实现中有bug。Andrew插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。

既然如此,就给Devin来试试看!

小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。

接下来,在小哥的要求下,Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。

挑战还没完,接下来,小哥要求Devin将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的「暴力测试」。

于是,Devin重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个bug。

接着,Devin开始调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。

于是Devin查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。

现在Andrew可以确信,自己的代码是完全正确的了

13.86%正确率,Devin碾压GPT-4/Cluade 3

SWE-bench是一个要求AI智能体解决开源项目(例如Django和scikit-learn)中实际GitHub问题的测试。

在评估中,Devin能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。

即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。

Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。

它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。

而行业共识也认为,AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。

Devin在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。

如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。

而Devin最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。

其他计算机科学家或者资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。

CEO Wu并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如OpenAI的GPT-4)与强化学习技术相结合的独特方法。