查看原文
其他

郭德纲“说”英文相声刷屏!解密继妙鸭相机后这个最新AI应用的爆款路径

杨文 AI先锋官 2023-12-22


作者杨文

编辑六耳

来源AI先锋官



  先锋官有话说:

产品名称:  heygen

总体评价:  ★★★★☆

     易用性:  ★★★★☆

     功能性:  ★★★★☆

     创新性:  ★★★★☆

推荐功能:  声音克隆

【办公室段子】


小A:领导要求咱们评测的AI产品,尽可能要在应用场景方面有一些创新性。

小B:那今天我的选品是heygen及类似应用,一款流程全自动化的AI视频翻译器。

小A:它的应用场景是什么?

小B:诈骗……嗯,影视制作、新闻直播、电商……


还记得五月初爆火的AI孙燕姿吗?有网友借助AI技术,模仿孙燕姿音色翻唱各种歌曲,民谣、流行、摇滚……没有hold不住的。(详细内容请查看:华语乐坛有“救”了?


短短半年时间,AI又进化了,唱歌那都是小case,现在流行用英语说相声。这可能是国内市场上继“妙鸭相机”之后最新的一款爆款应用。


(注:视频来自网络)


瞅瞅郭德纲这英语说的,那叫一个地道。声音、嘴型、卡点,金星看了也得说一句“Perfect!”



果然“宇宙的尽头是铁岭”,赵本山也开始与国际接轨,操着一口纯正的美式英语接受采访:


(注:视频来自网络)


可能赵大爷本人也得惊掉下巴,“哎呀妈呀,我啥时候学的英语?我咋都不知道捏?”


还有呢,霉霉说着地道流畅的普通话,口型与字幕几乎完全同步,毫无译制片腔调。


(注:视频来自网络)


实际上,今年5月份小编就刷到了霉霉说山东、天津等方言的视频,只不过那时的音色克隆还差点意思,有股张雨绮的味道。


(注:视频来自网络)

到底是哪款AI应用这么“神通广大”?heygen!


heygen是一款“人工智能视频翻译器”,目前仍处于Beta测试阶段,简单来说就是把视频的语音内容翻译为其它语言,同时保持口型同步,腔调一致。


具体用法:


第一步:打开官网,点击“Try heygen for free”后,跳出注册登录页面。用户可以使用邮箱注册,也可以用谷歌、Facebook等账号注册登录。

(链接直达:https://www.heygen.com/)

 


 

第二步:上传视频。点击页面左侧的“Video Translate”,系统自动跳转到操作页面。



用户随即上传一段视频。值得注意的是,系统支持mp4、quicktime和webm这3种类型的文件;文件大小不超过1GB,时长在30s到5分钟之间;分辨率则需介于360x360到4096x4096之间。



 

为了达到更好效果,heygen对视频内容也有要求:一是尽量避免背景音乐和噪音,防止他们降低输出音频质量;而是尽量避免多人。



第三步:选择要翻译的语言。heygen目前支持18种输入语言和15种输出语言,包括英语、中文、西班牙语、意大利语和日语等。


值得注意的是,heygen是一款付费应用,每月至少48美元。新用户可以免费试用2分钟的视频翻译时长,但是视频生成时间very long。


 

据社交媒体上的“大神”介绍,要想达到这种没有译制片腔调的配音效果,需要同时符合三个条件:


第一,能够进行地道的口语翻译。

第二,克隆说话者的声音。

第三,把嘴型换掉。


heygen是怎么做到的呢?


根据推特博主@Gorden_Sun的解密,heygen是打了一套开源方案的组合拳:文本翻译用的是GPT;语音转文字用的是whisper;声音克隆+生成新音频用的是so-vits-svc;最后的口型匹配用的是GeneFace++。


so-vits-svc这款软件是不是很熟悉,没错,就是制作AI孙燕姿的“神器”。


此外,小编发现在制作过程中,heygen在醒目位置还提示了“voice powered by Elevenlabs”(即“由Elevenlabs提供语言支持”)



Elevenlabs是一家美国初创公司,其最新推出的“AI Dubbing”工具可以将语音内容翻译成20多种不同语言,打破了语言障碍,使内容实现全球化。该工具的翻译流程自动化,同时保留原语音者的语气和情感,支持多种语言。


扒完产品,咱们再来扒一下背后的公司。很多媒体声称heygen来自深圳的一家公司——诗云科技,但奇怪的是,其官网不仅从头到尾一派英文,就连招聘地点都是洛杉矶、纽约、旧金山。


出于好奇,小编继续往下挖,有了不一样的发现。


这事还得从heygen两位创始人说起。


heygen两位创始人徐卓和梁望均来自中国,而且同为校友。他们本科均毕业于同济大学,研究生则毕业于卡内基梅隆大学,只不过前者专攻计算机专业,后者则是人机交互专业。


据官网介绍,heygen联合创始人兼CEO徐卓(Joshua Xu)硕士毕业后在Snapchat工作了6年,在商业化、推荐算法、机器学习平台和人工智能相机等多个公司产品中担任核心角色。


另一位联创兼CPO为梁望,曾任字节跳动北美设计Lead。


2020年11月,在Snap摸爬滚打了6年的徐卓回国创业,成立了诗云科技,并推出产品诗云马良。这是一款AI 作画、AI 换脸的应用,但遗憾的是,这款应用在国内并没有泛起什么水花,已于今年1月31日停止服务。



国内创业折戟,徐卓再次把眼光投向海外。


2022年,徐卓和梁望在洛杉矶创立了heygen。heygen最初名为“Movio”,是一个利用生成式人工智能创建视频的平台,推出7个月就实现了100万美元的ARR(年度经常性收入),并保持连续9个月50%的月环比增长率。


最近,heygen的访问量更是一骑绝尘。据推特上一位分析师Will的统计显示,今年8-9月,各大文生图类AI网站的访问量均开始呈现下降趋势,但heygen的访问量却上升了92%,流量跃居各大独立AI网站之首。



有道是“东方不亮西方亮”。


总结:


易用性上来说,heygen降低了声音克隆的门槛,上传视频、选择翻译语言、坐等视频生成,“三步走”搞定。或许是最近涌入的用户太多,官网响应较慢,另外对于免费试用的用户来说,排队等待视频生成的时间较长。


功能性和创新性上来说,heygen可实现多语言翻译,目前支持18种输入语言和15种输出语言,包括英语、中文、西班牙语、意大利语和日语等。同时heygen能够将翻译后的语音与视频中说话者的嘴唇动作同步,带来了逼真、无缝的观看体验。不过,heygen无法自动生成字幕,在情感还原度方面仍有欠缺。


此外,heygen还带来应用场景的创新。使用heygen制作讲解视频、营销广告、语言学习、新人培训、新闻播报、电影配音等,不过最最需要警惕的是,诈骗!以后打电话得对暗号了~


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存