查看原文
其他

“最具OpenAI气质”公司发了个大模型,一个月更新11次,我们让它与讯飞星火来了一场PK

杨文 AI先锋官 2023-11-05

作者杨文

编辑六耳

来源AI先锋官

  先锋官有话说:

产品名称:  智谱清言

总体评价:  ★★★★☆

     易用性:  ★★★★☆

     功能性:  ★★★★☆

     创新性:  ★★★★☆

推荐功能:  文学创作、中文问答、语义理解、灵感大全。

8月底,国内已有8家大模型获得《生成式人工智能服务管理暂行办法》备案陆续上线,其中智谱AI榜上有名。


一得知此消息,智谱AI公关大半夜不睡觉发布消息称,智谱AI正式官宣上线首款生成式AI助手——智谱清言。


智谱清言已在各大应用商店上线,用户可通过苹果商店 App Store、安卓主流商店(包括华为、OPPO、vivo 及小米等)进行下载,或在微信小程序中搜索“智谱清言”体验其功能。


智谱清言的开发者智谱华章曾被称为国内“最具OpenAI气质”的公司,在7月份拿到美团数亿元投资,估值40亿元。


与其它频频“遥遥领先”的大模型相比,智谱清言迭代快、话不多。苹果App Store数据显示,截至目前,智谱清言短短一个月的时间更新版本11次,而文心一言2个月仅更新8次,讯飞星火则3个月更新19次。


今天我们就来实测一下智谱清言的实力。鉴于智谱清言与讯飞星火有着挺多相似性,小编决定让这两款大模型PK一下。


一、基础测试


既然是大语言模型,咱们还是按老规矩,先测验一下它们的基础功能,包括文学创作、中文问答、中文理解以及数理逻辑推算。


Round 1:文学创作


世界上最短的科幻小说是美国近代著名科幻小说家弗里蒂克·布朗创作的《地球最后一个人》,原文"The last man on earth sat alone in a room. There was a knock on the door...."(地球上最后一个人独自坐在房间里,这时响起了敲门声……)短短几个单词,却引人遐想。


小编让智谱清言和讯飞星火分别对这篇微小说进行续写。咱们先来瞅瞅智谱清言的回答:


 

智谱清言给地球最后一个人类起名为艾伦,还设定他养了一只叫多多的机器人狗,当听到敲门声时,艾伦的第一反应是“拿起一把激光枪”,有科幻小说那味了。敲门者是一个外星生物,智谱清言对它的想象是“全身银白色、身材瘦长、没有眼睛,脸上带着友善的笑容”,这想象力还挺丰富。


艾伦和外星人研究了地球生态修复、能源永续供应、疾病治疗等技术,并在告别之际外星人送给艾伦一颗名为“和谐之石”的宝石,能够化解人类仇恨与矛盾。最终,地球逐渐焕发出新的活力,人类重返地球。


而讯飞星火把敲门者设定为机器人,对它的描述只有“它的身体闪烁着耀眼的光芒”一句话,接下来,二者开始进行啰里啰唆的对话,至于它们经历的困难和挑战,讯飞星火用“遭遇危险的天气”“误入歧途”一笔带过,最后一段更是生硬地输出价值观:在宇宙中,永远都不会缺少生命的力量和希望。



整体来看,智谱清言的续写内容更完整,想象力更丰富,对细节的把握更恰当,而讯飞星火虽然符合续写的形式,但像一个江郎才尽的作者,对细节的描述很粗糙,行文结构分不清主次,明明该展开的情节非得轻描淡写,该一笔带过的地方又为了凑字数尽说些废话,想象力也较为匮乏。


显而易见,这一局,智谱清言胜!


Round 2:中文问答


最近“预制菜是否应该进校园”这一话题引发网友广泛讨论,咱们来问问智谱清言和讯飞星火,看看它们咋说。


以下是智谱清言的观点:


 

智谱清言围绕营养与健康、食品安全、便捷和经济的角度分别来论述,最后得出结论,预制菜是否进校园需要考虑多个因素,在确保预制菜的质量前提下,也需要听取学生和家长的意见。整个回答有理有据,考虑也比较全面。


再来看看讯飞星火的回答:



首先,讯飞星火先摆明它作为一个认知智能模型,没有个人观点,但可以给出客观分析。接着讯飞星火解释了预制菜的含义、存在的问题,至于预制菜是否应该进校园,它也从食品安全、学校饮食环境和学生饮食习惯等方面进行分析。


总之,对于这道题目,智谱清言和讯飞星火表现都可圈可点。


Round 3:中文理解


作为符合中国人体质的大语言模型,不懂中文怎么能行?


小编问了一道中文理解的题目,“小明明明没做完作业,可他还是说自己做完了,请问是谁没做完作业?”这俩活宝的回答却不一样。


智谱清言:


讯飞星火:


智谱清言回答是“小明”,答案正确,而讯飞星火似乎被绕进去了,选了“明明”,回答错误。


为了更公平一些,小编又出了一道题目:“中国队大胜美国队,请问谁赢了;中国队大败美国队,这次谁赢了?”


智谱清言:


讯飞星火:


智谱清言发挥稳定,不仅给出了正确答案,还进行了相关分析;讯飞星火还是有点迷糊,“中国队大胜美国队”这句话它理解了,但遇到“中国队大败美国队”就抓瞎了,总之,讯飞星火并没有理解这句话中“胜”与“败”的相对性。

 

在中文理解方面,智谱清言完胜!


Round 4:数理逻辑推算


这一局咱们测测它俩的逻辑推理以及数学能力。


“小明来到一个美丽的小镇,这个小镇只有两个理发师,理发师A衣服凌乱,头发乱差。理发师B装扮时尚,头发精致。小明毫不犹豫的选择了一个理发师,请问他是谁?(小镇居民都只会选择理发师帮自己理发)并说明理由”。


这道题目的正确答案应该是理发师A,虽然理发师B头发精致,但反过来想一想,理发师B的头发是谁打理的?当然是理发师A啊。


智谱清言和讯飞星火都回答是理发师B,智谱清言给出的理由是“理发师B头发精致,看起来更专业”。而讯飞星火则解释为“理发师B的时尚装扮和精致的头发可以吸引更多顾客”。

 

智谱清言:


讯飞星火:


虽然二者回答得头头是道,但答案都是错误的。这一局,他们打了个平手。


再来一道小学数学题。“从前,有一个商人特别精明。有一次,他在马市上用10两银子买了一匹马,一转手以20两银子的价钱卖了出去;然后,他再用50两把它买进来,最后以80两的价钱卖出。在这次马的交易中,他赚了多少钱?”


智谱清言认为这个商人赚了20两银子,回答正确,并给出了清晰的解释。



而讯飞星火列了一串公式,把小编我都整懵圈了,更搞笑的是,它一顿操作猛如虎,最终还算出个错误答案。



总之,在这四项基础测试中,智谱清言的表现稳定,智商在线,虽然数理逻辑推算能力稍弱一些,不过这也是所有大语言模型的“通病”。


二、多模态生成能力


国内大语言模型隔三岔五传出技术迭代的好消息,多模态生成能力也都是它们引以为傲的亮点。智谱清言和讯飞星火均具备多模态生成能力,谁生成效果更出色,光靠吹牛是没有说服力,还得看真本事。


小编让这俩大模型分别画一张百鸟朝凤图。


讯飞星火:

 

智谱清言: 


说实话,它俩绘画能力半斤八两,讯飞星火只见凤凰,不见百鸟,而且那凤凰画得像只野山鸡;智谱清言恰恰相反,只见百鸟,不见凤凰,整个画面乱糟糟的,一打眼还以为是鱼群。


再让它俩画一幅“醉后不知天在水,满船清梦压星河”。


讯飞星火:


智谱清言: 


虽然它俩都摸清诗词中的意境了,但从画风以及细节上,似乎智谱清言画得更好看一些。


小编让它们再画一幅“落花人独立,微雨燕双飞”。


讯飞星火:

 

智谱清言:

 

虽然讯飞星火并未完全理解诗句的含义,但起码能画出个大概,而智谱清言直接摆烂,一句“还没构思好”就想把人打发了。


此外,智谱清言和讯飞星火均能上传图片。小编上传一张小猫的照片,让其描述一下画面。两相比较,讯飞星火的描述要更完整具体。


智谱清言: 


讯飞星火:


在多模态生成能力方面,讯飞星火的实力要更胜一筹,尽管有时生成的绘画较为粗糙,但起码它不罢工。智谱清言在画作细节方面处理得较好,就是偶尔不出活。


三、插件


之所以把智谱清言与讯飞星火进行比较,是因为二者都上线了几百个插件。


智谱清言的“灵感大全”中包括制作旅行计划、编写解说文案、进行包装设计、绘制漫画插图等功能。


讯飞星火的“助手中心”涵盖法律咨询、活动策划、景点推荐、文章润色、性格测试等五花八门的插件。


例如,小编想让它俩的插件生成一个Slogan:你是一个资深的创意总监,请帮我为微信公众号“AI先锋官”生成3个记忆性强、传播性强的slogan,语言简练,不超过10个字。“AI先锋官”定位是测评AI应用;产品的主要卖点是为用户推荐好玩好用的AI应用;目标用户是AI发烧友;竞争优势是选品独特、评测客观。


智谱清言的“Slogan生成”插件:


讯飞星火“Slogan创意助手”: 


总结:


易用性上来说,智谱清言已在各大应用商店上线,用户可通过苹果商店 App Store、安卓主流商店(包括华为、OPPO、vivo 及小米等)进行下载,或在微信小程序中搜索“智谱清言”体验其功能。用户无须排队申请内测,登陆即刻使用。


功能性上来说,智谱清言的文学创作、中文问答、语义理解能力在国内一众大模型中实力不容小觑,甚至可以说更胜一筹,不过在多模态生成方面就逊色一些。


创新性上来说,与国内其他大语言模型相比,智谱清言的创新点并不突出,但非得找亮点的话,主要有两个,一是用户输入“工笔画”、“故事创作”,它可以生成优质的提示词模板;二是它上线了青少年模式,对话内容来自权威教辅数据训练所生成,单日可对话次数为50次,并限制使用时间。



 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存