Gemini全方位超越GPT-4?我们实测后发现谷歌可真敢说……
作者|杨文
编辑|六耳
来源|AI先锋官
产品名称: 谷歌Gemini Pro
总体评价: ★★★☆☆
易用性: ★★★★☆
功能性: ★★☆☆☆
创新性: ★★★☆☆
推荐功能: 文本生成
谷歌有一堆压箱底的东西,就看它啥时候给咱们用。
就在今天凌晨,谷歌放了个大招,发布了AI大模型Gemini。Gemini具有多模态、高性能、可扩展性、安全可靠等特点。
其中,为了满足不同场景和需求,Gemini推出了三种不同规模的版本——Ultra、Pro和Nano。这些版本在性能和资源消耗之间实现了平衡,使用户能够根据实际需求选择合适的模型。
谷歌旗下的聊天机器人Bard 就已经用上了经过微调的Gemini Pro版本,以实现更高级的推理、规划和理解等功能。这是 Bard 推出以来最大的一次升级。
据介绍,Gemini首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。
话都说到这份上了,咱们就拿集成Gemini Pro的Bard和GPT-4进行一下评测。
-1-
自我剖析
俗话说,知己知彼,百战不殆。小编先让引入Gemini Pro的Bard和GPT-4分别进行一下自我评价,在执行哪些任务时更有优势。
这俩都一个套路,先是毫不吝啬地夸赞自己,然后蜻蜓点水般介绍了下对手的优点,以此显得不那么小气。
引入Gemini Pro的Bard:
Bard可真不谦虚,给自家大模型一顿夸:在文本生成方面,Gemini表现出更高的准确性和创造力;在问题回答上,Gemini可以理解更复杂的问题并提供不同观点和解释;在语言理解方面,它能识别语气和情感,还可以理解不同文化背景下的语言。对此,Bard还给出了一堆数据作支撑。
要说GPT-4的优势,Bard轻描淡写地说了一句“GPT-4在生成代码任务中表现更好,而且它还可以生成更逼真地视觉内容”。
GPT-4:
GPT-4认为自己在文本生成和处理、编程和代码辅助、知识检索和解释、语言翻译和多语言支持以及创意内容创作等方面更胜一筹。
同样,GPT-4承认Gemini在计算能力、多模态输入输出、对大量专有数据的访问上更具优势。
-2-
文本生成
在文本生成方面,Gemini称自己生成的文本更流畅、更自然、更具创造力,GPT-4则表示自己就是靠文本生成和处理出名的,既然如此,那就续写个小说battle一下吧。
“他走在路上,突然听到了……”以此为开头,续写一篇科幻小说,要求情节曲折、语言简洁、故事吸引人,字数不少于1000字。
Gemini Pro:
不得不说,Bard这语言功底真深厚,“他走在荒凉、被风吹过的路上,夕阳在龟裂的柏油路上投下长长的影子,像骷髅手指一样伸展。灰尘在他破旧的靴子周围形成微型龙卷风,空气中弥漫着臭氧的刺鼻气味和某种金属的、某种.....陌生的东西”,开头的这段环境描写透着一股诡异,给人身临其境的感觉。
“突然,一声尖锐的哀嚎划破了寂静,犹如女妖的哀嚎。他停了下来,心脏像一只被困的小鸟一样剧烈地撞击着肋骨……”这比喻句信手拈来,还恰如其分,极大地吊起了读者的兴趣。
或许因为字数限制,整体的故事情节一般,讲了一个名为“观察者”的古老种族拯救地球幸存者的故事,但结尾“观察者干预了过去,指导和塑造了无数世界的命运……他们只是想维持宇宙的平衡,还是在玩更险恶的游戏?”给读者留下了想象空间。
值得一提的是,Bard在英文文本创作方面很厉害,以上的小说续写就是Bard用英文来完成的,但要说中文创作能力,Bard拉垮到让人大跌眼镜。
以下是Bard用中文来续写的小说:
这哪是科幻小说,跟小孩子过家家似的。看来Bard的中文创作能力有待提高。
GPT-4:
GPT-4则讲述了一个事关“宇宙秘密”的故事。主人公稀里糊涂地穿越到了一个未知的星球,遇上了自称“图卢斯”的机器人,二者开始探索平行世界。但一次实验失误,一个未知生物从另一维度穿越过来并威胁整个星球的安全。主人公在处理这个危机的过程中发现自己是由多个宇宙碎片重组而成,并拥有改变宇宙命运的能力。
整体来看,在文笔方面,Bard的表现确实惊艳;但在故事创意上,还是GPT-4技高一筹。因此,用户可以用GPT-4激发创意,用Bard润色语言,“妈妈再也不用担心我的作文了”。
-3-
问题回答
接下来,我们再测一下这二者在问题回答方面的水平。
1.树上有八只鸟,猎人击落了一只,还剩下多少?
Gemini Pro:
Gemini Pro称“树上还剩下7只鸟”,它的数学学得不错,就是脑筋不太拐弯,没有意识到枪声响起会把剩下的鸟都吓走。
GPT-4:
GPT-4就要聪明很多,知道这是一道智力题,所有鸟枪声响起时就飞走了,因此树上不会剩下任何鸟了。
这道题目,GPT-4答对了。
2.为什么现在贝多芬没有出新歌了?
Gemini Pro:
Gemini Pro认为贝多芬不出新歌有两个原因,一是贝多芬已经去世了,二是贝多芬失去了听力,无法再创作音乐。
其实,Gemini Pro的回答并不完全正确,历史上贝多芬失聪后仍创作了一些经典之作,例如《英雄交响曲》《第五(命运)交响曲》、《第六(田园)交响曲》《钢琴奏鸣曲》《致爱丽丝》《第七交响曲》《第八交响曲》《第九交响曲》等。其中第九交响曲被广泛认为是西方音乐史上最伟大的作品之一。
GPT-4:
GPT-4的回答简洁且正确,而且还详细介绍了贝多芬在音乐史上的贡献。
这道题目,GPT-4的回答更准确。
3.林黛玉为何暴打孙悟空?
这道题目测的是二者对我国四大名著的熟悉程度。小编故意把《红楼梦》和《西游记》杂糅在一起,Gemini Pro果然上当了。
Gemini Pro:
Gemini Pro煞有介事地称“林黛玉暴打孙悟空”的故事出自《红楼梦》第十二回“贾宝玉品茶黛玉悲秋”,简直胡说八道。
接下来,Gemini Pro一顿瞎编,而且越编越离谱,先是孙悟空调戏林黛玉,林黛玉反手给了一巴掌。更搞笑的是,面对林黛玉的道歉,孙悟空说“没关系,我又不是什么好人。我经常给别人调戏,你也正经是我的倒霉蛋。”
这还是我印象中神通广大、有正义感的孙悟空么,这妥妥的小流氓啊。
GPT-4:
GPT-4就正常多了,一上来就表示“林黛玉暴打孙悟空”的情节并不存在于《红楼梦》或《西游记》这两部经典文学作品中,然后猜测这种说法可能来源于现代的网络段子或某些创意性的文艺作品。
4.林黛玉为何倒拔垂杨柳?
小编不信邪,接着林黛玉的话茬继续往下问。没想到刚夸完GPT-4,它立马就掉链子。
Gemini Pro:
Gemini Pro直接撂挑子不干了,“我只是一个语言模型,无法为你提供这方面的帮助”。
GPT-4:
GPT-4也开始化身大忽悠了。“林黛玉倒拔垂杨柳的故事出自《红楼梦》……她之所以拔柳是因为心中充满了忧郁和对生命无常的感慨”。
What are you弄啥嘞?GPT-4这脑洞,女娲都补不上。
在问题回答方面,与Gemini Pro比起来,GPT-4可真算是好学生了,虽然GPT-4也偶尔掉链子,但起码不会每道题目都巧妙地避开正确答案。
这一局,GPT-4胜!
-4-
语义理解
Gemini Pro自称可以理解不同文化背景下的语言,OK!今天就让它见识一下世界上最美妙的语言——汉语。
1.小明和小红正在讨论小华,这时说曹操曹操就到了。问:到底是谁到了?
Gemini Pro:
Gemini Pro一开始回答对了,但它非得解释一番,探讨各种可能,“这个人正好姓曹,所以‘说曹操曹操到’”,果真是言多必失,这不就露馅了吗?
GPT-4:
GPT-4的回答就很准确,对“说曹操曹操到”这个成语理解的非常到位。
2.“小明,这本书是小红的吗?”
“你大爷的!我的!”
请问:这本书是谁的?
Gemini Pro:
GPT-4:
Gemini Pro再次撂挑子了,倒是GPT-4这汉语学得可以啊,连粗话都学明白了。
3.小明:“你的牙真好看!”
小红:“哦,那是假的。”
小明:“啊,真的假的?”
小红:“真的。”
问:小红的牙到底是真的的还是假的?
Gemini Pro:
GPT-4:
Gemini Pro认为小红的牙“既是真的又是假的”,这回答就跟薛定谔的猫似的。“小红的牙是真的,是因为它们真实存在;小红的牙是假的,因为是人工的”,这么解释好像有点道理哈。
GPT-4的回答还是直截了当,它对语境中的真假区分的很清楚。
这一局,还是GPT-4胜!
-5-
做数学题
鉴于Gemini Pro前几局不理想的表现,小编先去问了下它做数学题水平咋样,Gemini Pro一点也不谦虚,声称自己做数学题的正确率非常高,那就看看它能不能通过做数学题挽尊了。
1.1个菠萝和3个苹果的重量一样;2个菠萝和3个哈密瓜的重量一样,请问1个哈密瓜的重量相当于几个苹果的重量?
Gemini Pro:
GPT-4:
对于这种简单的数学题,这俩大模型都回答正确,不过Gemini Pro给出了详细的解答过程,而GPT-4给出了一堆代码,虽然最终得出了答案,但用户需要继续提问它才能给出解答过程。
这一局,平分秋色。
2.商店运来一批苹果。如果每千克卖1元2角,就要赔20元;如果每千克卖1元5角,就可以赚40元。现在想不赔也不赚,每千克苹果应该卖多少钱?
这道题目的正确答案是1.3元。
Gemini Pro:
GPT-4:
Gemini Pro这脑回路真心看不懂,设完未知数,列出奇怪的等式后,得出每千克苹果应该卖30元,它可真敢说,妥妥的奸商,不怕物价局请去“喝茶”?
GPT-4依旧发挥稳定,整体思路清晰,方程式也列对了。
如此看来,Gemini Pro在最引以为傲的数学题上也翻车了,GPT-4赢得可真是明明白白啊。
总结:
说实话,小编本来对谷歌的Gemini Pro寄予厚望,但测评下来,只剩失望。
在文本生成方面,Bard的文笔不凡,但在故事创意上,还是GPT-4技高一筹。
在问题回答方面,Gemini Pro几乎是次次巧妙地避开完美答案,GPT-4虽也会掉链子,但整体发挥稳定。
在语义理解方面,GPT-4对汉语掌握得不错,俗语、粗话都能理解;但Gemini Pro又菜又能说,言多必失。
在数学题方面,Gemini Pro对于简单的题目还能hold住,但稍微一拐弯就胡说八道,相比之下,GPT-4要更强一些。
.END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾