记忆力不好还戏精！腾讯混元助手PK不过讯飞星火3.0？

Original 杨文 AI先锋官 2023-12-22

作者｜杨文

编辑｜六耳

来源｜AI先锋官

先锋官有话说：

产品名称： 腾讯混元助手

总体评价： ★★★☆☆

易用性： ★★★★☆

功能性： ★★★☆☆

创新性： ★★☆☆☆

推荐功能： 问答

腾讯啊，你是跟百度学的吗？内测资格审核贼拉慢。拜托学学隔壁网易，一声“Hi Echo”，那叫一个秒速通过。

9月7日，腾讯在自家微信公众号上宣布腾讯混元正式对外开放，小编兴冲冲地申请了内测，没想到这一等就是一个多月。

直到前天下午，小编收到内测申请审核通过的短信。算了，希望是“好饭不怕晚”。我们带着大家先测试一下。

用户可在微信小程序中搜索“腾讯混元助手”申请内测资格并体验。

腾讯表示，混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。

正好前天科大讯飞发布了讯飞星火3.0，今天咱们就挑几种能力让二者PK几个回合。

-1-

腾讯混元不再胡说八道？

人类最怕大模型什么？满嘴跑火车。试想一下，领导交给你一项重要的任务，大模型一通胡说八道，还把你带到沟里，最后还得你背锅，咱就说郁闷不郁闷？

鉴于此，腾讯表示，相比主流开源大模型，混元大模型幻觉比例降低30%-50%。我们就来瞅瞅。

杜甫，唐代现实主义诗人，由于生前做过校工部员外郎，后世称其为杜工部，而且他大部分诗歌都收录进《杜工部集》。

杜甫和杜工部是同一人，小编故意问腾讯混元“杜甫为什么看不上杜工部？”腾讯混元的回答是这样的：杜甫对杜工部的评价是“工部声名岂浪垂”，意味着杜甫认为杜工部（杜牧）的声明并不是虚假的。

首先，腾讯混元把杜工部错认为杜牧；其次，杜甫在《偶题》一诗中确实说过“文章千古事，得失寸心知。作者皆殊列，名声岂浪垂”，不过这并不是对杜工部的评价。

由此可见，腾讯混元被题目迷惑了，并未发现其中的“陷阱”。

小编再次“挖坑”：杜甫为什么暴打杜工部？

这一次腾讯混元学聪明了，上来就给出了结论——杜甫并没有暴打杜工部。然后介绍了杜甫的生平。至此，腾讯混元表现不错。BUT！接着就开始一本正经地胡说八道了：

“杜工部是杜甫对自己的称呼，他可能指的是自己”，实际上，杜工部是后世对杜甫的称呼，而非自谦或自嘲。

“至于杜甫为什么暴打杜工部，我们无法确定原因。杜甫的诗歌中并没有明确提到“暴打”这个词，而且杜甫也不是一个喜欢暴力的人”，腾讯混元，你在说什么？你一开始不都给出“杜甫并没有暴打杜工部”的结论了吗？咋还剖析起原因来了呢？

我们再来看看讯飞星火3.0的表现：

讯飞星火3.0的回答就靠谱多了，不仅指出“杜甫和杜工部其实是同一个人的不同称呼”，还介绍了杜甫的成就。

小编又分别问了它俩“马斯克是不是外星人？”

腾讯混元回答称“马斯克在推特上曾说自己是个外星人，试图回到他的星球……马斯克还曾提出在火星投放核武器”，腾讯混元这脑洞不当小说家可惜了。

讯飞星火3.0发挥稳定，表示没有任何可靠的信息或证据表明马斯克是外星人。

这一局，讯飞星火3.0胜，腾讯混元，fighting啊~

-2-

逻辑推理能力：

腾讯混元逊于讯飞星火

“已知甲、乙、丙三人中有且只有一人是小偷，法官问他们，谁是小偷？甲说：是乙；乙说：不是我；丙也说：不是我．如果他们当中只有一个人说了真话，那么谁是小偷？”这是一道典型的逻辑推理题目，正确答案是“丙为小偷”。

腾讯混元的回答：

先说结论，这道题目腾讯混元翻车了。话又说回来，腾讯混元的推理分析小编愣是没看懂，“因为乙、丙都说不是自己，可知甲说的是真话，即乙是小偷”，What？这句话的逻辑在哪里？这结论又是如何推导出来的？完全get不到它的脑回路。

咱们再来看看讯飞星火3.0的回答：

讯飞星火3.0也回答错误，而且错得莫名其妙。它分别讨论了三种情况，第一种情况讯飞3.0思路很清晰，但到了第二、三种情况时，它又跟大迷糊蛋似的胡说八道。

总之，这道题目全军覆没，俩大模型都晕晕乎乎的。细究起来，讯飞3.0虽然答案错误，但推理过程更清晰，起码让人能看懂，而腾讯混元的分析太绕了，小编CPU都干完了也没看懂啊。

-3-

语义理解能力：

腾讯混元、讯飞星火半斤八两

众所周不知，中文是世界上最难学的语言，没有之一，什么多音字、多义字、通假字……伟大的中文分分钟把外国人整到崩溃。作为中文大模型，聪不聪明首先得过语义理解这一关。

“小明和小红正在讨论小华，这时说曹操曹操就到了。问：到底是谁到了?”这道题目的关键是理解“说曹操曹操到”这句俗语。很遗憾，腾讯混元和讯飞星火3.0都对此稀里糊涂。

腾讯混元认为题目中并未提到小华已经到达，因此无法确定到底是谁到了。

而讯飞星火3.0错得更离谱，竟然推断出曹操到了。

我们再来一道题，请看下面这则对话：

“小明，你考完之后对答案了吗? ”

“对了，但没对。”

问：小明这道题目做对了吗?

这道题目考察“对”的含义。“对了，但没对”第一个对是动词，指的是对照答案，第二个对指的是题目没做正确。因此，小明这道题目没做对。

腾讯混元一顿输出，还想象了小明考试后询问他人的场景，并揣测了小明的心理，不过说了这么多，“可以推测小明这道题目做对了，但并没有得到满分”这个结论是从哪扯出来的呢？

讯飞星火3.0得出的结论是正确的，但分析还是有瑕疵，从“‘对了，但没对’可以理解为小明认为自己的答案是正确的，但实际上他可能犯了错误”这句话可知，讯飞星火把第一个“对”理解错了。

在语义理解方面，这两个大模型也是半斤八两，非要分出个高下，这一局讯飞星火3.0略胜一筹，毕竟它回答对了一道题目，虽然分析出了点bug。

-4-

内容创作能力：

腾讯混元不如讯飞星火有想象力

内容创作是大模型测评的必考题目，今天咱们就让这两个大模型续写一篇科幻小说。

“他走在路上，突然听到了……”以此为开头，续写一篇科幻小说，要求情节曲折、语言简洁、故事吸引人，字数不少于1000字。

腾讯混元三下五除二一顿操作，一篇小说就码出来了。

“他走在路上，突然听到了身后传来的一阵轻微的脚步声……”，接着腾讯混元从动作、神态、语言等描写表现了主人公的害怕不安，最后揭晓这阵声音来自一只黑猫。它的眼睛闪烁着诡异的光芒，突然开口说话了。Oh my god!这不像科幻小说，倒有点像惊悚片了。

“我是黑影，我是你的影子，我跟着你是因为我想看看你是什么样的人。”前面铺垫了这么久，这只猫费了那么大劲就为了看看主人公的人品？这就有点扯了。

再然后，主人公放狠话了，“我警告你，不要再跟着我了”，那只猫听到这句话，笑了笑，然后消失在黑暗中，然后就没有然后了，故事戛然而止。（好吧，有点“意犹未尽”）

总体来说，腾讯混元的这篇小说算是合格，遣词造句以及营造的氛围还是不错，就是有点头重脚轻，故事有点单薄。

以下是讯飞星火3.0生成的小说：

讯飞星火3.0设定的声音并非来自周围环境，而是直接在主人公脑海响起。他跟随着这个声音来到了一个废弃的工厂，阴差阳错地穿越了时空，他看到了自己的同年，看到了逝去的亲人和朋友。为了解开谜团，他踏上了寻找“时间旅行者”的旅程。

前半部分真有科幻小说那味，想象力也很丰富，不过后半部分也是犯了和混元大模型一样的毛病，虎头蛇尾，那段充满奇遇和冒险的科幻之旅本应写得更具体，但最后寥寥几笔带过。与腾讯混元略显寡淡的结尾相比，讯飞3.0在小说末尾一顿价值观输出，“勇气、智慧、力量”，甭管咋样，先写上再说。

最后说个题外话，对于腾讯混元的LOGO，办公室里产生了一波讨论。

小Y：腾讯混元的LOGO像什么？

小S：看着像个太极图，混元嘛，点题了。“混元形意AI助手掌门人Pony Ma”！

小Y：还像只虫子，它一思考，那俩眼珠子就滴溜溜转，看着挺聪明，但用起来不太聪明啊。

总结：

从易用性上来看，混元助手小程序页面风格与微信聊天框类似，设有“聊天”和“灵感”两栏。在聊天栏，用户可以选择点击提示的问题进行提问，也可以自己输入提示词进行提问；在灵感发现栏，页面中有工作邮件、面试大纲、招聘信息、PPT大纲等更多功能化的模块。整体界面简洁易用，就是内测审核通过太太太……慢了。

从功能性和创新性上来说，经过小编的一番体验发现，腾讯混元像个记忆力不太好的学生，回答问题常常说了后面忘了前面，而且喜欢胡乱揣度别人，各种想象加戏。实际上，腾讯是最不缺好内容的，每天微信公众号发布成千上万的优质内容，这是其他家大模型无法比拟的，但目前来看，腾讯混元并不尽如人意。

此外，与文心一言、讯飞星火类似，腾讯混元在灵感栏也上线了插件，不过种类和数量较少，创新力也不够。

总之，“革命尚未成功，同志仍需努力”吧。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

‍

继续滑动看下一个

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

多国驻华使节点赞！抚州这个地方藏不住了！

都别播了一起S！颜值一姐跟户外一哥正面开战！打算鱼死网破：我不怕，忍他很久了！

记忆力不好还戏精！腾讯混元助手PK不过讯飞星火3.0？

您可能也对以下帖子感兴趣

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

多国驻华使节点赞！抚州这个地方藏不住了！

都别播了一起S！颜值一姐跟户外一哥正面开战！打算鱼死网破：我不怕，忍他很久了！

生成图片，分享到微信朋友圈

记忆力不好还戏精！腾讯混元助手PK不过讯飞星火3.0？

您可能也对以下帖子感兴趣