今年 VC 的钱正在投这个 AI 方向，AI 人形机器人 Figure 的实现原理

Original StartupBoy 投资实习所 2024-04-13

经过近半年的测试，以及最近产品整体重构和数据迁移的完成，Memo（vcsmemo.com）将于下周正式上线，会员价格将在下周一从之前测试期间的399 元/年恢复为原价599 元/年，感谢测试期间数千位读者朋友的支持。正式上线后，Memo 的内容可能会更加多元化一些，也会做更多其它尝试，但仍然会坚持 Signal,Not Noise 的理念。

AI 仍然在高歌猛进，继昨天 Cognition Labs 发布了号称全球第一个完全自主的 AI 软件工程师 Devin后，AI 人形机器人领域又迎来了一个巨大更新。

另外开源 AI 模型 Togerther AI 今天宣布完成了 1.06 亿美金的新一轮融资，由 Salesforce Ventures 领投，Coatue 以及 FuggingFace CEO 和 PyTorch 创始人等众多投资人参与，估值达到了 12.5 亿美金，每个月的流量呈 3 倍速增长。

两周前，成立不到 2 年的 AI 人形机器人 Figure 以 26 亿美金的估值完成了 6.75 亿美金新一轮融资，成为 AI 人形机器人领域的一个里程碑事件，除了单笔这么大金额的融资和一众产业投资人加入外，Figure 与 OpenAI 的深度合作是其中的一个重点。

今天，双方在合作 13 天后，Figure 就更新了新的进展，得益于 OpenAI 提供的大脑支持，Figure 的机器人现在可以与人进行全面对话，并处理具体的任务，如下视频所示。

Figure 的创始人 Brett Adock 说它展示了端到端的神经网络，没有任何的遥控操作，并且这个视频是以 1 倍速连续拍摄的，从视频可以看出其速度已经开始接近人类的速度了。

Figure 的 AI 负责人 Corey Lynch 说，Figure 01 这次更新的对话要归功于与 OpenAI 的合作，现在其机器人可以描述其视觉体验、计划未来的行动、反思它的记忆以及口头解释其推理过程。

Corey Lynch 对其技术原理做了简单的解释：其所有的行为都是通过学习而非遥控来运行的，他们将机器人摄像头的图像和机载麦克风捕获的已转录文本输入到 OpenAI 训练的大型多模态模型中，该模型能理解图像和文本。

并且该模型能处理对话的整个历史记录，包括过去的图像，以产生语言回应，然后通过文本到语音的方式回应人类。同一个模型负责决定在机器人上运行哪种已学习的闭环行为以完成给定的命令，将特定的神经网络权重加载到 GPU 并执行策略。

之后将 Figure 01 连接到一个大型的预训练多模态模型，赋予了它一些有趣的新功能。这样，Figure 01 + OpenAI 就可以实现这些能力：

描述它的周围环境。在做决定时使用常识推理，比方说“桌子上的那些餐具，像那个盘子和杯子，很可能会被放到下一个晾碗架上。”将模糊、高级的请求，比方说"I'm hungry"翻译为一些符合上下文的行为，如"递给这个人一个苹果"。
用简单的英语描述为什么它执行了特定的行动。比方说“这是我能从桌子上提供给你的唯一可食用的物品”。

而一个理解对话历史的大型预训练模型赋予了 Figure 01 强大的短期记忆能力，考虑这个问题，“你能把它们放在那里吗？”“它们”指的是什么，而“那里”又是哪里？正确回答需要反思记忆的能力。

借助预训练的模型分析对话的图像和文本历史，Figure 01 迅速形成并执行了一个计划：1）将杯子放在晾碗架上，2）将盘子放在晾碗架上。

最后就是操作，所有行为都由视觉运动变换器策略驱动的神经网络驱动，直接将像素映射到动作。这些网络以 10hz 的速度接收机载图像，并以 200hz 的速度生成 24-DOF 的动作（手腕姿势和手指关节角度）。这些动作充当了整体身体控制器追踪的高速"设定点"。

这是一个有用的关注点分离（separation of concerns）：

互联网预训练模型通过对图像和文本进行常识推理，来制定高级计划；
学习的视觉运动策略执行计划，执行快速的反应行为，这些行为很难手动指定，比如在任何位置操作一个可变形的袋子；
与此同时，全身控制器确保了安全稳定的动态，比方说，保持平衡。

Corey Lynch 说，即使在几年前，他也会认为和一个能够规划并执行自己完全学习到的行为的类人机器人进行完整的对话，是我们需要等待几十年才能看到的事情。但很显然，很多事情已经发生了变化:）。

另外，Figure 01 此次的更新，似乎是在向苹果创始人乔布斯致敬，因为 Figure 01 的声音好像是乔布斯的，虽然没有正面证实，不过 Figure 创始人 Brett Adock 特意发来一个推文让大家猜机器人的声音，对于乔布斯这个答案他没有否认，我听下来也像乔布斯。

其实无论是以 Figure 为代表的 AI 人形机器人，还是 Cognition Labs 的 AI 软件工程师 Devin，我发现今年海外 VC 对 AI 的投资主题，其中一个就是 AI Employee（AI 员工）：其特点是加强人类的工作，或者通俗的说法取代人类的工作。

就像我在昨天文章最后所说那样，脑力劳动这块的编程、法律、会计、写作、客服等领域都已经有不错实践；而体力劳动这块，AI 人形机器人正在试图解决这块的问题；即使是精神情绪这块，各类 AI 伴侣也在给人类提供情绪价值。

仅 2024 年前 3 个月时间，就有至少 20 多个针对各个领域的 AI Employee 创业公司拿到了融资，下面我简单做了部分梳理，涉及到了AI 软件工程师、AI 客服、通用 AI 员工、AI 金融分析师、AI 合规官、AI 数据分析师以及 AI 行政等多个领域……

全文共2606字后续内容为付费会员专属加入 Memo 解锁更多内容

Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读

说明：这是我的新产品 Memo（vcsmemo.com），除了公众号的内容，未来也会把更多其它内容放到网站上。

目前还是一个非常简单的内测版本（0.99），还有不少 Bug，大家多多担待，内测阶段为早鸟价（399 RMB/年），付费会员可以解锁之前以及未来一年的所有付费内容。如果这些内容给你带来了一些启发，欢迎分享给更多朋友。

另外我们已经支持开发票，如果付费用户有开票的需求，请在公众号对话框发送“发票”，获得入口。

最强 AI 软件工程师来了，华人团队拿了一堆顶级投资人 2100 万美金

AI 取代人类的工作，正在从客服行业开始

AI 人形机器人的里程碑，ChatGPT 的新功能与 AI 洋娃娃伴侣

继续滑动看下一个

投资实习所

向上滑动看下一个

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

刘建超会见泰国为泰党党首佩通坦

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

星解读|龚俊：多重发力，如何成为“不设限”的演员？

今年 VC 的钱正在投这个 AI 方向，AI 人形机器人 Figure 的实现原理

您可能也对以下帖子感兴趣

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

刘建超会见泰国为泰党党首佩通坦

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

星解读|龚俊：多重发力，如何成为“不设限”的演员？

生成图片，分享到微信朋友圈

今年 VC 的钱正在投这个 AI 方向，AI 人形机器人 Figure 的实现原理

您可能也对以下帖子感兴趣