Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的Airbnb民宿中。
就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管Elad Gil。
这个名叫Andrew的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。
不久前有朋友告诉他:其中一个实现中有bug。Andrew插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。
既然如此,就给Devin来试试看!
小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。
接下来,在小哥的要求下,Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。
挑战还没完,接下来,小哥要求Devin将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的「暴力测试」。
于是,Devin重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个bug。
接着,Devin开始调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。
于是Devin查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。
现在Andrew可以确信,自己的代码是完全正确的了
13.86%正确率,Devin碾压GPT-4/Cluade 3
SWE-bench是一个要求AI智能体解决开源项目(例如Django和scikit-learn)中实际GitHub问题的测试。
在评估中,Devin能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。
即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。
Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。
它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。
而行业共识也认为,AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。
Devin在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。
如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。
而Devin最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。
其他计算机科学家或者资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。
CEO Wu并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如OpenAI的GPT-4)与强化学习技术相结合的独特方法。