全球首位AI软件工程师Devin诞生了，它掌握全栈技能云端部署底层代码改bug训练和微调AI模型都不在话下。 Cognition AI这家正在改变世界的公司，才正式成立不到2个月，仅有10名员工，分散在纽约、硅谷，以及世界各地的A...

Cognition AI这家正在改变世界的公司，才正式成立不到2个月，仅有10名员工，分散在纽约、硅谷，以及世界各地的Airbnb民宿中。

就这样一个连正式办公场地都没有的团队，却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资，其中还包括前推特高管Elad Gil。

这个名叫Andrew的开发者表示，自己维护了一个大型开源存储库，其中包含许多不同的算法，用于竞争性编程。

不久前有朋友告诉他：其中一个实现中有bug。Andrew插入了一个快速修复，但并没有测试它，因为没能抽出时间来编写测试用例。

既然如此，就给Devin来试试看！

小哥给了Devin存储库，让它来检查和处理这个存储库。然后，Devin就找到了正确的存储库，检查了所有文件。

接下来，在小哥的要求下，Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样，接口是什么样，就完成了这项任务。

挑战还没完，接下来，小哥要求Devin将对所有输入进行测试，而不仅仅是测试这个输入，也就是自己常用的「暴力测试」。

于是，Devin重写了测试函数，使用了四个嵌套的循环，这一次，它发现了一个bug。

接着，Devin开始调试。它在这里添加了一个print语句，来调试输入和输出，然后重新测试，发现了错误：代码不应该返回负值。

于是Devin查看了正在测试的代码，然后添加进了这行代码，确保返回值是非负的。

现在Andrew可以确信，自己的代码是完全正确的了

13.86%正确率，Devin碾压GPT-4/Cluade 3

SWE-bench是一个要求AI智能体解决开源项目（例如Django和scikit-learn）中实际GitHub问题的测试。

在评估中，Devin能够完整地正确处理13.86%的问题，这一成绩大幅领先于之前技术水平的1.96%。

即便是在提供了具体需要修改的文件情况下，先前最优秀的模型也仅能处理4.80%的问题。

Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。

它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段，还能像人类一样进行思考，获得解决最终问题最为合理的方法和路径。

而行业共识也认为，AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。

Devin在接受用户用自然语言提出的任务之后，不仅能够自主开始工作并完成任务，还会向用户报告其计划，并实时展示正在使用的命令和代码。

如果用户发现过程中的问题，可以即时提供反馈。它会在任务进行中立即调整。

而Devin最大的亮点在于，大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注，但它能够在完成数百上千任务时始终不偏离目标。

其他计算机科学家或者资深程序员在试用过Devin之后认为，它已经不仅仅是一个编程助手，简直是一个可以独立工作的员工。

CEO Wu并没有详细说明他们的智能体背后使用的AI技术，只是笼统地解释说，团队找到了将大语言模型（例如OpenAI的GPT-4）与强化学习技术相结合的独特方法。

全球首位AI软件工程师Devin诞生了，它掌握全栈技能云端部署底层代码改bug训练和微调AI模型都不在话下。