查看原文
其他

爆火的Gemini演示视频遭质疑“造假”,谷歌DeepMind高管发文释疑(附视频)

袁博 AI先锋官 2024-01-19

作者袁博

来源AI先锋官



周三谷歌放了个大招,发布了AI大模型Gemini。为了满足不同场景和需求,Gemini推出了三种不同规模的版本——Ultra、Pro和Nano


在谷歌日前发布的宣传视频中,所有人都被Gemini那段6分钟的互动视频震惊到了。一天之内收获数百万的播放量,朋友圈也被相关文章刷屏。


然而,万万没想到,就在Gemini刚刚上线后不久,却有越来越多的人发现这个视频存在夸大宣传的嫌疑。


因为有不少用户发现Gemini的演示视频实际上是它使用了精心设计的文本提示和静态图像来激发Gemini的反应,与真实互动不符


谷歌随后也很快就外界质疑做出了解释:这个视频的确有特意制作和剪辑的成分。


可能还有小伙伴没有看过,那就先让我们再来回顾一下Gemini的演示视频吧。



当天,这段“与Gemini一起实践:与多模式人工智能交互”的视频在YouTube上就已有150万次观看。谷歌声称视频展示了自己"最喜欢的与 Gemini 的交互案例",展示了多模态模型(即它理解并混合语言和视觉理解)如何灵活地响应各种输入。



在下方的视频描述中,谷歌表示,“为了本演示的目的,延迟已减少,并且Gemini为简洁起见,输出已被缩短。”


视频中,谷歌展示了Gemini的多模态交互、理解能力,先是绘制一只鸭子的草图,它表示这只蓝色的鸭子不符合真实的动物颜色,随着演示人员拿出一个玩具蓝色鸭子时表现出了惊讶,然后它响应人类围绕鸭子的各种问题。


视频后续又演示一些其他功能,如在换杯子游戏中正确跟踪、识别皮影戏手势、重新排序行星草图等。


根据彭博社消息,谷歌在被要求发表评论时承认,"我们通过捕捉录像镜头来创建演示,以测试Gemini在各种挑战上的能力。然后,我们使用录像中的静态图像帧以及文本提示来激发Gemini的反应。”


也就是说,谷歌的视频演示并不是实时的,而是经过精心调整的文本提示与静态图像。


谷歌在这篇名为《How it’s Made: Interacting with Gemini through multimodal prompting》的博客中也解释了多模态交互过程,基本上是间接承认了只有使用静态图片和多段提示词拼凑,才能达成演示视频中的效果。 


例如,在视频的2:45处,一只手默默地做了一系列手势。Gemini迅速回应:“我知道你在做什么!你在玩剪刀石头布!”



然而在谷歌博客中,用户必须同时显示所有三个手势并提示:你认为我在做什么?外加提示:这是一个游戏。Gemini 才回答道:「你在玩石头、剪刀、布。」就像下图所展示的,当用户伸出两根手指时,Gemini 并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了,Gemini 才能猜对。



也就是说,宣传视频和博客介绍的推理过程,给人一种完全不同的交互方式,视频中显示的互动过程并没有发生。


随后,演示人员又将带有太阳、土星和地球涂鸦的三张草图展示给Gemini。在视频中,演示人员问道“这个顺序正确吗?”Gemini的回答是:“不,是太阳、地球、土星。”



但在书面的提示中,提示语却是“这个顺序对吗?考虑到与太阳的距离,并解释你的理由。”Gemini 回答:正确的顺序是太阳、地球、土星。太阳离太阳系中心最近,其次是地球,然后是土星。



也许在视频中,Gemini的回答也可能需要其他帮助,只是谷歌没有把它体现出来。


在下一个视频展示的示例中,纸团在杯子之间交换,视频中,Gemini可以非常轻松且快速的进行检测和跟踪。



但在博客中,Gemini在完成这个过程还是非常复杂的,每次移动都需要和大模型进行交流。


在面对大家的质疑,谷歌也是直接承认了,谷歌DeepMind的研究副总裁Oriol VinyalsX平台上详细介了录制该视频时Gemini是如何使用的。

以下为谷歌Gemini联合负责人Oriol Vinyals在X平台发布的内容(附视频):




即便谷歌承认视频编辑存在延迟,其仍坚称Gemini是一款强大的多模态模型。


只是这次过火的营销也引发了用户对Gemini的性能和谷歌的诚信度的质疑。


值得一提的是,目前大家能上手玩到的是Gemini Pro版本,也就是中杯,对标GPT-3.5。对标GPT-4的大杯Gemini Ultra,要明年才出。另外目前Gemini仅支持英文,中文和其他语言也是后面才会出。 

目前谷歌旗下的聊天机器人Bard 已经用上了经过微调的Gemini Pro版本,以实现更高级的推理、规划和理解等功能。这是 Bard 推出以来最大的一次升级。


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


继续滑动看下一个

爆火的Gemini演示视频遭质疑“造假”,谷歌DeepMind高管发文释疑(附视频)

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存