查看原文
其他

最强 AI 软件工程师来了,华人团队拿了一堆顶级投资人 2100 万美金

StartupBoy 投资实习所 2024-04-13

经过近半年的测试,以及最近产品整体重构和数据迁移的完成,我的这个小产品 Memo(vcsmemo.com) 将于下周正式上线了, 会员价格也将在下周一从之前测试期间的 399 元/年恢复为原价 599 元/年,感谢测试期间数千位读者朋友的支持。

正式上线后,Memo 的内容可能会更加多元化一些,也会做更多其它尝试,但仍然会坚持 Signal,Not Noise 的理念提供独特的价值。

昨天的文章,简单介绍了一下 AI 对客服行业工作的取代趋势,随着越来越多大公司开始用 AI 取代外包的客服,创业公司也迅速加入这个趋势,仅 YC 最新一期孵化的项目中,就至少有 5 家针对这块的项目,并且从通用解决方案延伸到了细分行业(具体参见《AI 取代人类的工作,正在从客服行业开始》)。

正如 Klarna CEO 所说,他们公布 AI 取代客服工作的数据是希望让决策者认识到,这不是未来才会发生的事情,而是现在就在发生的事情,社会必须开始思考这一重大变革。

而 AI 对程序员工作的取代,也是大家一直非常关注的话题。今天,一个由华人团队创立的 Cognition Labs 推出了第一个 AI 软件工程师 Devin,就是冲着最终取代人类软件工程师的目标来的,从目前公布的信息来看,说它是目前最强的 AI 软件工程师似乎一点也不过分,今天直接在 X 上刷屏了。

根据 Cognition 官方博客,

Devin 是世界上第一个完全自主的 AI 软件工程师,它可以计划和执行需要数千个决策的复杂工程任务,可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误,以及主动与用户协作的能力;而且 Cognition 还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。

其博客公布的 Devin 能力展示的几个案例视频,它可以学习如何使用不熟悉的技术,比方说在阅读一些博客文章后,Devin 在 Modal 上可以运行 ControlNet,生成带有隐藏消息的图像。

它可以端到端地构建和部署应用程序,比方说展示案例里 Devin 制作了一个模拟生命游戏的互动网站,它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。

另外,它还可以自主查找并修复代码库中的错误,训练和微调自己的人工智能模型,比方说你只需给出 GitHub 上研究存储库的链接,它就可对大型语言模型进行微调;

同样,在解决开源存储库中的错误和功能请求这块,也只需提供 GitHub 问题的链接,Devin 就可完成所需的所有设置和上下文收集,它甚至可以在 Upwork 上完成真正的工作,这已经非常类似一个真实的人类软件工程师了。

根据他们对 Devin 在 SWE-bench 上做的测评,Devin 端到端正确解决了 13.86% 的问题,远远超过了之前 1.96% 的最好水平,即使提供了要编辑的确切文件,以前最好的模型也只能解决 4.80% 的问题。

随着 Devin 的推出,Cognition Labs 也宣布完成了 2100 万美金的 A 轮融资,由 Funders Fund 领投,跟投的投资人里包括了 Stripe 的两位兄弟创始人 Patrick Collison 和 John Collison,超强 Solo VC Elad Gil,Conviction 的 Sarah Guo,Together AI 的联合创始人 Chris Re,Ramp CEO Eric Glyman 和 CTO Karim Atiyeh,Better 创始人 Erik Bernhardsson, DoorDash 创始人 Tony Xu 以及 Coinbase 联合创始人 Fred Ehrsam 等。

而 Devin 今天在 X 上完全刷屏了,Patrick Collison 说,Devin 展示的那些案例视频不只是精选的案例,在他实践的过程中,Devin 的表现都非常出色。

OpenSea 前 CTO Alex Atallah 说,这是他使用过的第一个让他感觉像是在与真实、有用的人交流的 AI 代理。比方说像"查阅文档以了解如何设置 Docker 容器"和"修复连接数据库的问题"这样的状态更新,再加上能看到 Devin 正在看到的内容,使这成为一个真正独特的体验。

Coinbase 联合创始人 Fred Ehrsam 说这是他第一次看到一个 AI 接手复杂任务,将其分解为步骤,完成它,并向人类展示沿途的每一步,到达可以完全接替人类任务的地步

其它一些 AI 创始人在体验其产品后,认为 Devin 是一次飞跃,因为它不像一个帮助编写代码的助手,而更像是一个真正的工人在做自己的事情。Founders Fund 创始人 Peter Thiel 直接将 Cognition 类比于 DeepMind、OpenAI 和 Scale AI 这样的公司。

相比于 GitHub 的 Copilot,Devin 不只是提供编程的建议和自动完成一些任务,它还能独立承担并完成整个软件项目。并且在工作过程中,Devin 会显示它正在执行的所有任务,并在测试编写的代码时自行发现和修复错误。这比 Copilot 以及目前所有的 AI Agent 都往前走了很大一步。

Cognition 的团队目前 10 个人,其中包括了 CEO Scott Wu、CTO Steven Hao 以及 CPO Walden Yan,根据 Bloomberg 的报道,其中 Steven Hao 是 Scale AI 的顶级工程师之一,而 Scott Wu 的兄弟 Neal Wu 也在团队,他们都以其编程能力而闻名于世。以下是 Bloomberg 发布的 Cognition 团队合照:

Cognition 的官方介绍称,整个创始团队拥有 10 枚 IOI 金牌,大家之前在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo 和 Nuro 等公司从事 AI 前沿工作。

Scot Wu 认为教 AI 成为一名程序员实际上是一个非常深入的算法问题,需要系统做出复杂的决策,并展望未来的几步,以决定应该选择什么路线。而这些一直就像他们多年来一直在脑海中玩的游戏,现在他们有机会将其编程到 AI 系统中。

对于是如何实现 Devin 这样的能力,Scot Wu 没有透露太多信息,只是说他的团队找到了将 OpenAI 的 GPT-4 等大型语言模型 (LLM) 与强化学习技术相结合的独特方法。

不过除了这种天赋能力外,Cognition 的团队同样非常努力, Sara Guo 透露称,当所有人都在谈论 AI Agent 没什么用时,Cognition 的团队连续 3 个月 996 编程写代码证明了那些人是错的。

37signal 的 CTO DHH 甚至发推文称留给手动写程序敲代码的时间不多了你应该享受这最后几年作为手动程序员的奢华和风格,然后以一种烈焰燃烧的荣耀方式结束。

目前 AI 正在各个领域试图取代或者说加强人类的工作,脑力劳动这块的编程法律会计写作客服等领域都已经有不错实践;而体力劳动这块,最近大火的 AI 人形机器人正在试图解决这块的问题;即使是精神情绪这块,各类 AI 伴侣也在给人类提供情绪价值。

就像我在昨天文章里说分享的那个报告数据所说那样,仅仅一年时间,大家对 AI 取代(加强)人类工作的进程预测就已经大大提前了。以后的招聘,可能将有很多工作变成购买或者订阅一个 AI Agent。

·END·


Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读更多内容

AI 取代人类的工作,正在从客服行业开始


AI 人形机器人的里程碑,ChatGPT 的新功能与 AI 洋娃娃伴侣


50 多位 CFO 参与融资 5000 万美金 ,AI 要开始重塑会计了


AI 正在重塑法律行业

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存