查看原文
其他

OpenAI放大招,85后美国小伙站上全球科技舞台C位

杨文 AI先锋官 2023-12-22


作者杨文

编辑六耳

来源AI先锋官



AI圈子一夜未眠。


11月7日凌晨,美国旧金山,OpenAI首席执行官Sam Altman(山姆·阿尔特曼)向来自全球的开发者、企业、合作伙伴分享了最新产品,镇定自若、侃侃而谈。



这是OpenAI举办的首届开发者大会,也是85年出生的阿尔特曼第一次站上这种科技圈舞台的中央。曾经,这个位置属于乔布斯、库克,属于马斯克、小扎……


一上来,阿尔特曼就回顾了过去一年OpenAI的产品进程。截至目前,已经有大约200万开发人员在其API上构建各种各样的应用,超过92%的全球500强企业正使用其产品,ChatGPT的周活跃用户达到大约一亿。



接着,Sam Altman就开始放大招:


全新的GPT-4 Turbo 模型

更可控的输出:函数调用增强、JSON 模式

开放新的API:DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3

GPT-4 微调、自定义模型

GPTs:创建自定义版本的 ChatGPT

GPT Store 即将上线

Assistants API:更接近 AI 智能体的体验


咱们一个一个来唠唠。


-1-

面向开发者:

史上最强GPT-4 Turbo,价格还打骨折


(一)GPT-4 API升级为 GPT-4Turbo


最先亮相的是GPT-4 Turbo,Sam Altman专门介绍了它六大功能。



1.context length(上下文长度)


GPT-4 Turbo GPT-4 更强大。GPT-4支持多达8K和特定情况下32K的内容长度。而GPT 4 Turbo支持多达128K的内容长度,大概是一本300页的书。更长的上下文意味着模型输出结果更加准确。


2.More control(更多的控制方式)


 

OpenAI推出了被称为Json Mode的新功能,其可以确保开发人员更容易调用API,且更好遵循指示。它提供了一条消息中调用多个功能的能力,用户可以发送一条消息请求多个操作等。


此外,它还引入了一个名为可重复输出的新功能。只要使用者传递种子参数,它将使模型返回一致的输出。当然,这给了用户对模型行为更高程度的控制。这些功能将在今天的beta版本推出。


OpenAI还将推出一项功能,允许在 API 中查看日志探针,这有助于构建搜索体验中的自动完成等功能。


3.Better Knowledge(更新的知识储备)


OpenAI在不断更新知识库。GPT-4对世界的了解在2021年终止,而GPT 4 Turbo的知识库截止时间为2023年4月,这意味着它在回答截止日期前发生事情的相关问题时答案将更准确。


OpenAI正在平台上启动检索,用户可以将来自外部文档或数据库的知识带入用户正在构建的任何内容中。


4.New Modalities(全新的视觉模态)


 

GPT-4 Turbo可以支持图像输入,并完成生成标题、详细分析图像以及阅读带有图形的文档等应用。OpenAI计划为主要的GPT-4 Turbo模型提供视觉支持,作为其稳定版本的一部分。


开发人员可以通过其图像API指定模型,将DALL·E 3直接集成到企业的应用程序和产品中。每生成一张图像的起价为0.04美元(折合人民币约0.29元)。


同时,开发人员还能通过文本转语音API生成更自然的语音文件,OpenAI新TTS模型提供了六种预设声音及两种模型变体。每输入1000个字符起价为0.015美元(折合人民币约0.11元)。


5.Customerzation(更多的定制化选择)

这项更新针对的是GPT-4,OpenAI推出一项用于微调GPT-4的实验性访问计划,允许开发人员创建ChatGPT的自定义版本,包括修改模型训练过程的每一步,进行额外的特定领域预训练、运行针对特定领域定制的自定义强化学习后训练过程等。不过,OpenAI并不推荐初创企业使用这一功能,因为前期的成本相对来说比较高昂。


6.Higher rate Limits(更高的速率限制)

 


Altman 宣布了更高的速率限制。他们将为所有现有的 GPT-4 客户的每分钟 token 数量翻倍,使其更容易做更多事情,并且可以直接在 API 账户设置中请求更改进一步的速率限制和配额。


此外,OpenAI正在引入版权盾。版权盾意味着如果用户面临有关版权侵权的法律索赔,OpenAI将介入并保护公司的客户并支付所产生的费用。这适用于ChatGPT Enterprise和API。OpenA始终坚持一点,永远不会用API或GPT企业的数据进行训练。


(二)GPT-4降价

 

GPT 4 Turbo比GPT 4更强大,但价格更良心。GPT-4 Turbo输入tokens价格为GPT-4的三分之一,为0.01美元/1k tokens(折合人民币约0.07元);输出tokens价格为GPT-4的二分之一,为0.03美元/1k tokens(折合人民币约0.22元)。这将导致GPT 4 Turbo比GPT 4便宜超过60%。



Altman举了个例子,将1080×1080像素的图像传递给GPT-4 Turbo将花费0.00765美元(折合人民币约0.06元)。


GPT-3.5 Turbo输入tokens比之前的16k模型价格便宜1/3,输出tokens便宜1/2,分别是0.001美元/1k tokens(折合人民币约0.007元)和0.002美元/1k tokens(折合人民币约0.015元)。


(三)发布GPT Assistant API


Altman称,构建一个类似Agent的API是很困难的,往往需要数十个开发人员花费几个月的时间。为了简化这一过程,OpenAI今天推出Assistants API,帮助开发者在自己的应用程序中构建AI助手。


Assistants API引入的一个关键更新是提供持久且无限长的线程(Threading),允许开发人员将线程状态管理移交给OpenAI,并解决上下文窗口长度约束的问题。


Assistants API还提供三款新的工具,分别是代码解释器(Code interpreter)、检索(Retrieval)以及函数调用(Function calling)。



代码解释器允许开发者在沙盒执行环境中编写和运行Python代码,可以生成图形和图表,并处理具有不同数据和格式的文件,允许AI助手迭代运行代码来解决具有挑战性的代码和数学问题等。


检索功能可以利用模型之外的知识来增强助手,例如专有领域数据、产品信息或用户提供的文档。


函数调用则使助手能够调用开发者定义的函数,并将函数响应合并到其消息中。

OpenAI开发者体验主管Romain现场演示了Assistants API的Demo。


假设需要构建一个旅行应用程序Wanderlust,图中是已经用GPT-4和DALL·E 3生成的目的地列表及风景图。



要构建一个该网站的AI聊天助手,开发者只需输入聊天助手的名称、简介,选择需要使用的模型,并选择需要的工具即可自动生成。


当输入“让我们去巴黎吧!”,该助手自动生成了对巴黎的介绍,并将右侧的地图聚焦到巴黎。


当输入“(在那里)最值得做的10件事情是什么?”,该助手生成10件事后,又在地图上将对应的地点标注了出来。



在检索功能上,用户可以将需要补充的PDF文件直接拖拽到网页上,Assistants API将会自动解析,并以文字或交互形式将有关的内容补充进来。


Romain还演示了一个为此次开发者大会构建的专用Assistant,包含本次大会的全部数据,并且使用语音交互取代了文字页面交互。


Romain通过手机语音输入,让该助手Whisper与现场与会者打了个招呼。随后,为了调动氛围,他先是让Whisper随机抽取5名“幸运观众”,最后又为现场所有与会者每人提供了500美元的API积分。



Assistants API即日起开放测试版,用户可以在Assistants Playground主页体验,而无需编写任何代码。


OpenAI称,与平台的其他部分一样,上传到OpenAI API的数据和文件永远不会用于训练其模型,开发人员可以在认为合适时删除数据。


体验地址:

https://platform.openai.com/docs/assistants/overview


(四)开源语音和图像模块


Whisper 是 OpenAI 开源的一款语音转文本模型。在这次开发者大会上,Altman 官宣了新版本 Whisper large-v3,其特点是提高了各种语言的识别性能。他们还计划在不久的将来在 API 中支持 Whisper v3。


 

此外,他们还在开源 Consistency Decoder,它是 Stable Diffusion VAE 解码器的直接替代品。该解码器可改进所有与 Stable Diffusion 1.0+ VAE 兼容的图像,并在文本、人脸和直线方面有显著改进。


-2-

面向普通用户:

定制专属GPT、GPT Store也即将来袭


(一)ChatGPT进化为GPTs,用户自定义GPT


人们对于AI的终极设想就是用户只负责提需求,AI为用户完成所有任务,这在AI领域常被称为“Agent”(代理)。


OpenAI推出GPTs新服务,这是针对特定目的定制的ChatGPT版本。



用户可以构建一个定制版的ChatGPT,适用于任何有说明、扩展知识及行动的场景,然后发布给其它人使用。由于其结合了指令、扩展知识和行动,它也将具备更好的控制力,在工作和休闲场景中发挥更大作用。


Altman通过三个合作伙伴案例来解读GPTs能做什么:


比如,一个教育领域的伙伴Code.org的课程被全球数千万学生使用,其设计了课程策划GPT,汇聚了编程能力和广泛的课程专业知识,让老师能用其帮学生快速解答问题。


 

知名设计平台Canva构建了一个GPT,支持用户通过自然语言描述设计需要的素材,比如让它为今天的招待会设计一份海报,定制GPT会根据用户提供的细节生成一些选项,用户通过点击和聊天的方式,就能获得最终设计图。

 


另一个伙伴Zapier已经构建了一个GPT,允许用户在6000个应用程序中执行操作,集成应用。在其负责人的演示中,当她点击Zapier AI操作开始,问“我能知道今天的日程安排是什么吗?”,定制版GPT就连接了她的日历,提示其在日程上出现了冲突。当提出“萨姆,不,我得(提前)走了”,定制GPT会推出与萨姆通话的选项,以供运行。


 

构建GPTs的方式非常简单,只需要在ChatGPT中对话交谈就够了。


Altman现场展示了如何使用自然语言,完成ChatGPT构建和分发GPTs,仅仅用了不到5分钟。


(二)本月推出GPT Store


Altman称,本月晚些时候,OpenAI将推出一个GPT商店,供开发者上传其开发的专业GPT应用,就像App Store一样展示最受欢迎的GPT。


收入共享对OpenAI来说很重要。OpenAI将拿出收入的一部分,向推出最有用和最常用GPTs的开发者付费,从而培育一个充满活力的生态。


(三)界面简洁化


很多用户认为模型选择器极其烦人,因此从今天开始,GPT-4用户不用再点模型的各种下拉菜单了,以后只有一个窗口,模型可以自主调用代码解释器、联网工具Dalle3等。


国内AI公司还在喊着“遥遥领先”的口号时,OpenAI已在不知不觉中进化。纵观整场发布会,王炸一个接一个,看来留给国内AI公司的时间不多了。


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存