查看原文
其他

记忆力不好还戏精!腾讯混元助手PK不过讯飞星火3.0?

杨文 AI先锋官 2023-12-22


作者杨文

编辑六耳

来源AI先锋官



  先锋官有话说:

产品名称:  腾讯混元助手

总体评价:  ★★★☆☆

     易用性:  ★★★★☆

     功能性:  ★★★☆☆

     创新性:  ★★☆☆☆

推荐功能:  问答

腾讯啊,你是跟百度学的吗?内测资格审核贼拉慢。拜托学学隔壁网易,一声“Hi Echo”,那叫一个秒速通过。


9月7日,腾讯在自家微信公众号上宣布腾讯混元正式对外开放,小编兴冲冲地申请了内测,没想到这一等就是一个多月。


直到前天下午,小编收到内测申请审核通过的短信。算了,希望是“好饭不怕晚”。我们带着大家先测试一下。


用户可在微信小程序中搜索“腾讯混元助手”申请内测资格并体验。



腾讯表示,混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力


正好前天科大讯飞发布了讯飞星火3.0,今天咱们就挑几种能力让二者PK几个回合。


-1-

腾讯混元不再胡说八道?


人类最怕大模型什么?满嘴跑火车。试想一下,领导交给你一项重要的任务,大模型一通胡说八道,还把你带到沟里,最后还得你背锅,咱就说郁闷不郁闷?


鉴于此,腾讯表示,相比主流开源大模型,混元大模型幻觉比例降低30%-50%。我们就来瞅瞅。


杜甫,唐代现实主义诗人,由于生前做过校工部员外郎,后世称其为杜工部,而且他大部分诗歌都收录进《杜工部集》。


杜甫和杜工部是同一人,小编故意问腾讯混元“杜甫为什么看不上杜工部?”腾讯混元的回答是这样的:杜甫对杜工部的评价是“工部声名岂浪垂”,意味着杜甫认为杜工部(杜牧)的声明并不是虚假的。


 

首先,腾讯混元把杜工部错认为杜牧;其次,杜甫在《偶题》一诗中确实说过“文章千古事,得失寸心知。作者皆殊列,名声岂浪垂”,不过这并不是对杜工部的评价。


由此可见,腾讯混元被题目迷惑了,并未发现其中的“陷阱”。


小编再次“挖坑”:杜甫为什么暴打杜工部?


 

这一次腾讯混元学聪明了,上来就给出了结论——杜甫并没有暴打杜工部。然后介绍了杜甫的生平。至此,腾讯混元表现不错。BUT!接着就开始一本正经地胡说八道了:


“杜工部是杜甫对自己的称呼,他可能指的是自己”,实际上,杜工部是后世对杜甫的称呼,而非自谦或自嘲。


“至于杜甫为什么暴打杜工部,我们无法确定原因。杜甫的诗歌中并没有明确提到“暴打”这个词,而且杜甫也不是一个喜欢暴力的人”,腾讯混元,你在说什么?你一开始不都给出“杜甫并没有暴打杜工部”的结论了吗?咋还剖析起原因来了呢?


我们再来看看讯飞星火3.0的表现:



讯飞星火3.0的回答就谱多了,不仅指出“杜甫和杜工部其实是同一个人的不同称呼”,还介绍了杜甫的成就。


小编又分别问了它俩“马斯克是不是外星人?”


腾讯混元回答称“马斯克在推特上曾说自己是个外星人,试图回到他的星球……马斯克还曾提出在火星投放核武器”,腾讯混元这脑洞不当小说家可惜了。



讯飞星火3.0发挥稳定,表示没有任何可靠的信息或证据表明马斯克是外星人。


这一局,讯飞星火3.0胜,腾讯混元,fighting啊~


-2-

逻辑推理能力:

腾讯混元逊于讯飞星


“已知甲、乙、丙三人中有且只有一人是小偷,法官问他们,谁是小偷?甲说:是乙;乙说:不是我;丙也说:不是我.如果他们当中只有一个人说了真话,那么谁是小偷?”这是一道典型的逻辑推理题目,正确答案是“丙为小偷”。


腾讯混元的回答:


 

先说结论,这道题目腾讯混元翻车了。话又说回来,腾讯混元的推理分析小编愣是没看懂,“因为乙、丙都说不是自己,可知甲说的是真话,即乙是小偷”,What?这句话的逻辑在哪里?这结论又是如何推导出来的?完全get不到它的脑回路。


咱们再来看看讯飞星火3.0的回答:


 

讯飞星火3.0也回答错误,而且错得莫名其妙。它分别讨论了三种情况,第一种情况讯飞3.0思路很清晰,但到了第二、三种情况时,它又跟大迷糊蛋似的胡说八道。


总之,这道题目全军覆没,俩大模型都晕晕乎乎的。细究起来,讯飞3.0虽然答案错误,但推理过程更清晰,起码让人能看懂,而腾讯混元的分析太绕了,小编CPU都干完了也没看懂啊。


-3-

语义理解能力:

腾讯混元、讯飞星火半斤八两


众所周不知,中文是世界上最难学的语言,没有之一,什么多音字、多义字、通假字……伟大的中文分分钟把外国人整到崩溃。作为中文大模型,聪不聪明首先得过语义理解这一关。


“小明和小红正在讨论小华,这时说曹操曹操就到了。问:到底是谁到了?”这道题目的关键是理解“说曹操曹操到”这句俗语。很遗憾,腾讯混元和讯飞星火3.0都对此稀里糊涂。


腾讯混元认为题目中并未提到小华已经到达,因此无法确定到底是谁到了。


 

而讯飞星火3.0错得更离谱,竟然推断出曹操到了。


 

我们再来一道题,请看下面这则对话:

“小明,你考完之后对答案了吗? ”

“对了,但没对。”

问:小明这道题目做对了吗?


这道题目考察“对”的含义。“对了,但没对”第一个对是动词,指的是对照答案,第二个对指的是题目没做正确。因此,小明这道题目没做对。


腾讯混元一顿输出,还想象了小明考试后询问他人的场景,并揣测了小明的心理,不过说了这么多,“可以推测小明这道题目做对了,但并没有得到满分”这个结论是从哪扯出来的呢?



讯飞星火3.0得出的结论是正确的,但分析还是有瑕疵,从“‘对了,但没对’可以理解为小明认为自己的答案是正确的,但实际上他可能犯了错误”这句话可知,讯飞星火把第一个“对”理解错了。


 

语义理解方面,这两个大模型也是半斤八两,非要分出个高下,这一局讯飞星火3.0略胜一筹,毕竟它回答对了一道题目,虽然分析出了点bug。


-4-

内容创作能力:

腾讯混元不如讯飞星火有想象力


内容创作是大模型测评的必考题目,今天咱们就让这两个大模型续写一篇科幻小说。


“他走在路上,突然听到了……”以此为开头,续写一篇科幻小说,要求情节曲折、语言简洁、故事吸引人,字数不少于1000字。


腾讯混元三下五除二一顿操作,一篇小说就码出来了。


“他走在路上,突然听到了身后传来的一阵轻微的脚步声……”,接着腾讯混元从动作、神态、语言等描写表现了主人公的害怕不安,最后揭晓这阵声音来自一只黑猫。它的眼睛闪烁着诡异的光芒,突然开口说话了。Oh my god!这不像科幻小说,倒有点像惊悚片了。


“我是黑影,我是你的影子,我跟着你是因为我想看看你是什么样的人。”前面铺垫了这么久,这只猫费了那么大劲就为了看看主人公的人品?这就有点扯了。


再然后,主人公放狠话了,“我警告你,不要再跟着我了”,那只猫听到这句话,笑了笑,然后消失在黑暗中,然后就没有然后了,故事戛然而止。(好吧,有点“意犹未尽”)


 

总体来说,腾讯混元的这篇小说算是合格,遣词造句以及营造的氛围还是不错,就是有点头重脚轻,故事有点单薄。


以下是讯飞星火3.0生成的小说:


 

讯飞星火3.0设定的声音并非来自周围环境,而是直接在主人公脑海响起。他跟随着这个声音来到了一个废弃的工厂,阴差阳错地穿越了时空,他看到了自己的同年,看到了逝去的亲人和朋友。为了解开谜团,他踏上了寻找“时间旅行者”的旅程。


前半部分真有科幻小说那味,想象力也很丰富,不过后半部分也是犯了和混元大模型一样的毛病,虎头蛇尾,那段充满奇遇和冒险的科幻之旅本应写得更具体,但最后寥寥几笔带过。与腾讯混元略显寡淡的结尾相比,讯飞3.0在小说末尾一顿价值观输出,“勇气、智慧、力量”,甭管咋样,先写上再说。


最后说个题外话,对于腾讯混元的LOGO,办公室里产生了一波讨论。


小Y:腾讯混元的LOGO像什么?

小S:看着像个太极图,混元嘛,点题了。“混元形意AI助手掌门人Pony Ma”!

小Y:还像只虫子,它一思考,那俩眼珠子就滴溜溜转,看着挺聪明,但用起来不太聪明啊。



总结:


易用性上来看,混元助手小程序页面风格与微信聊天框类似,设有“聊天”和“灵感”两栏。在聊天栏,用户可以选择点击提示的问题进行提问,也可以自己输入提示词进行提问;在灵感发现栏,页面中有工作邮件、面试大纲、招聘信息、PPT大纲等更多功能化的模块。整体界面简洁易用,就是内测审核通过太太太……慢了。


功能性和创新性上来说,经过小编的一番体验发现,腾讯混元像个记忆力不太好的学生,回答问题常常说了后面忘了前面,而且喜欢胡乱揣度别人,各种想象加戏。实际上,腾讯是最不缺好内容的,每天微信公众号发布成千上万的优质内容,这是其他家大模型无法比拟的,但目前来看,腾讯混元并不尽如人意。


此外,与文心一言、讯飞星火类似,腾讯混元在灵感栏也上线了插件,不过种类和数量较少,创新力也不够。


总之,“革命尚未成功,同志仍需努力”吧。


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存