对于 OpenAI 最新发布 支持实时语音对话的模型GPT-4o,你想说什么?

简介: 【6月更文挑战第4天】对于 OpenAI 最新发布 支持实时语音对话的模型GPT-4o,你想说什么?个人关于 OpenAI 最新发布的支持实时语音对话模型的 GPT-4o 想说的内容

2024年5月14日凌晨,OpenAI宣布推出GPT-4o,GPT-4o在处理速度上提升了高达200%,同时在价格上也实现了50%的下降,GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等,将对所有用户免费开放。该模型凭借超高速的语音响应能力和多模态交互革新,重新定义了AI语音对话的边界。那么面对这样一款在人机语音交互上有突破性进展的对话模型,你有哪些想说的呢?


那么下面个人从开发者的角度,细细同大家聊聊。

GPT-4o

首先来说一下,什么是GPT-4o?在GPT-4出来时,大家猜测的下一代是GPT-5,但是GPT-4o的出现,并不是当初的猜想,那么为什么会是GPT-4o呢?

GPT-4o的名称中“o”代表Omni,即全能的意思,百度翻译是

GPT-4o是OpenAI的新旗舰模型,能够实时处理音频、视觉和文本,响应更快、处理更快、效率更高,不仅是人机语音对话体验更接近人与人之间的实时对话,视觉识别能力的进步也让 AI 更能基于现实世界进行语音交互。也就是更像人了。

GPT-4o相比前代有哪些显著的技术提升?

GPT-4o想比前代它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,而不是像前代一样,先通过模型将语音转录成文本,再通过 GPT-3.5/GPT-4 进行处理和输出,最后再通过文本转语音模型将文本转录为语音。这样无疑会使得用户使用语音模式与ChatGPT对话时,会无端的增大延时,比如:GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。同时多次转换的结果也会导致音频输入后由于处理方式丢失大量信息。


另外,GPT-4o 是跨文本、视觉和音频端到端训练的新模型,在新的语音模式下所有输入和输出都由同一个神经网络处理。甚至不只是文本和语音,新的语音模式还能基于手机摄像头的实时画面进行对话。这些也都使得GPT-4o更接近自然人的感觉了。

OpenAI发完GTP-4o,国内大模型行业还有哪些机会?

俗话说,科学无国界,那么GTP-4o的发布,并不会限制国内大模型行业的发展,而会为国内大模型行业带来技术革新、应用拓展、生态构建等多方面的机遇。


对于国内大模型来说,基于GPT-4o具备的多模态处理能力,国内大模型可以聚焦于开发结合文本、图像、语音等多种输入形式的创新应用,比如智能客服、教育辅导、医疗诊断辅助、虚拟现实交互等,探索AI在更复杂场景中的应用。GPT-4o 可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互(甚至是人 - 机器 - 机器交互)迈出的重要一步。那么国内大模型就可以沿着这个方向继续努力让人机交互更像人,甚至成为自然人,这些都可以成为国内大模型的挑战和机会。

相关文章
|
18天前
|
机器学习/深度学习 人工智能 监控
[AI OpenAI] 提取GPT-4中的概念
研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。
[AI OpenAI] 提取GPT-4中的概念
|
8天前
|
人工智能 安全 机器人
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
19 3
|
10天前
|
人工智能 安全 搜索推荐
OpenAI宣布为企业和消费者提供可定制的GPT
OpenAI宣布为企业和消费者提供可定制的GPT
|
9天前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
|
9天前
|
人工智能 搜索推荐 机器人
OpenAI推出GPT Store,领导层纷争后的新业务
OpenAI推出GPT Store,领导层纷争后的新业务
|
9天前
|
人工智能 网络安全 开发者
OpenAI GPT商店计划下周推出
OpenAI GPT商店计划下周推出
|
10天前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
10天前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
48 1
|
8天前
|
人工智能 自然语言处理 搜索推荐
探索马斯克xAI与GPT模型的现状与发展:引领人工智能的未来
探索马斯克创立的xAI与"百模大战"的崛起,马斯克从对AI的担忧转向实际行动,成立xAI以追求宇宙真理。中国AI产业在竞争中崛起,多家企业推出大模型,展现出强劲实力。AI大模型发展趋势包括规模性能提升、多模态学习、个性化和自适应,以及模型的可解释性和公正性。xAI与GPT模型的出现,揭示了AI的潜力与挑战,未来将推动人机协作和模型的可持续发展。
|
1月前
|
人工智能 API UED
为什么OpenAI突然把GPT-4o免费了?
OpenAI将GPT-4o免费开放,原因包括降低成本、推广品牌、占领市场、收集数据优化模型以及促进会员转化。免费服务吸引用户,同时提供高级功能和更大容量给付费用户,创造用户体验落差以提高付费转化率。通过先给予部分免费服务,培养用户依赖,未来可能推出更多高级产品引导消费升级。值得注意的是,免费使用仍有限制,普通用户和Plus用户有不同的权益。
为什么OpenAI突然把GPT-4o免费了?