重磅发布的「AI视频通话」如何10分钟就实现?

简介: 2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。

image.png

一、引言

2024年, OpenAI 正式发布了 GPT-4o,发布会上称,该模型的强大之处在于可以接受任何文本、音频和图像的组合作为输入,并直接生成上述这几种媒介输出。这也意味着人机交互将更接近人与人的自然交流。


我们在与传统的语音助手交互时,往往要经历至少三个阶段。


举个🌰:当我们说“XX,帮我设定一个上午10点的闹钟”。首先语音助手要进行语音识别,然后分析并执行指令,通过LLM 计划下一步要说什么,最后再将内容进行语音合成。每一个行动步骤都有可能出现较大延迟,甚至可能会理解错误,此时作为与机器交互的我们会体验感骤降。


那什么才是更接近人与人的自然交流?我们考虑视频通话的情况:1.视听同步:可以同时接收图像与音频信息2.听说同步:也就是当对方打断时,可以立刻停止;在对方发言的过程中,也会适时表示认可3.逻辑思维:预测对方讲话结束发生的时间,并很快接上4.迅速响应5.......


这些问题都是此前的 AI 语言助手无法很好处理的,而针对上面的问题,抽象出技术要点就是:


1.拟人化交互支持全双工实时音视频交互、智能语义识别与断句,并提供多种语言、音色和风格的语音合成及声音克隆。


2.精准感知根据摄像头捕捉的画面内容,系统能够实时分析情境并提供与当前场景紧密相关的反馈,提升互动的质量和效率。


3.情绪捕捉通过面部表情分析,AI 智能体能够解读用户的情绪状态,做出更加贴近用户期望的反应。


4.灵活编排控制台白屏化 AI 组件 ( ASR/TTS/数字人/LLM...) 灵活编排,快速构建一个企业专属云上 AI 智能体。


5.高质量通话依托实时音视频 ARTC 全球 3200+ 节点和 QoS 策略,实现高质量、低延时通话。但是!!这一OpenAI春季发布会的重磅杀手锏,在阿里云上人人可实现,人人可体验!本文将介绍的就是如何快速创造出可视频通话的AI 智能体。以及期待每一个部署的你与它碰撞出新的火花。点击文末“阅读原文,参与活动可得惊喜礼物~


二、操作教程

整体架构

部署流程总体可以分为以下三个步骤:

1、创建实时音视频通信应用

2、创建AI智能体

3、实际应用的部署


其中,AI 智能体是本方案的核心组件之一,能够在云端模拟高度拟真的用户交互。用户可以根据需求自行创建智能体。通过灵活的插件式和拖拽式方式,用户可以编排各个 AI 组件,如语音转文字、多模态大模型、语音合成等,从而实现 AI 智能体的实时工作流。实时音视频通信技术(ARTC)为用户与AI智能体之间的音频通话提供了高可用、高品质、超低延时的保障。


与智能体交互的过程,可以参看下面的流程图:

image.png

通过终端 SDK 发起与云端 AI 智能体的音视频通话请求,AI 智能体接收到用户的音视频输入后,依据预定义的工作流进行处理,对视频抽帧后交由多模态大模型进行理解,并将大模型的响应结果返回给用户,从而实现与 AI 智能体的对话。


创建实时音视频通信应用


实时音视频 ARTC 是智能体和用户之间建立起实时音频通信的基础,实现 AI 实时互动需要准备一个 ARTC 应用,参照以下步骤开通并创建 ARTC 应用。


1.开通视频直播:https://common-buy.aliyun.com/?commodityCode=live,计费方式选择按使用流量计费,点击右下角立即开通。

image.png

2.在视频云直播控制台:https://live.console.aliyun.com/overview,左侧导航栏单击直播+ > 实时音视频 > 应用管理。


3.单击创建应用。

image.png


创建AI智能体

AI 智能体是在 AI 实时互动解决方案中定义的高仿真用户,用户可以根据自身需求创建智能体,并将其集成到自己的应用中,使其能够按照既定工作流程在实时音频环境中运行,从而实现实时音频交互功能。


1.登录智能媒体服务控制台:https://ims.console.aliyun.com/summary,点击立即开通按钮。

image.png

2.在服务开通页面,勾选服务协议,点击立即开通按钮。

image.png

3.点击服务授权按钮。

image.png

4.在服务授权页面,点击同意授权按钮。


image.png

5.登录 AI实时互动-智能体管理:https://ims.console.aliyun.com/ai/robot/list,单击创建智能体

image.png

(1)基础信息:可以自定义智能体名称。

image.png


(2)工作流配置:选择 VisionChat系统工作流作为工作流ID;实时音视频ARTC应用则选择在上一步中创建的ARTC应用。完成这些配置后,点击提交按钮。

image.png


部署应用

1.请点击应用模板链接:https://fcnext.console.aliyun.com/applications/create?template=aui-ai-vision-chat&deployType=template-direct,打开我们提供的函数计算应用模板,填写配置。

image.png

2.其他配置项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成即可。

image.png

3.应用部署完成后,可以在应用的环境详情中找到示例网站的访问域名,点击即可查看,确认示例网站已经部署成功。

image.png

4.当您点击拨打按钮后,系统会提示使用HTTPS访问页面。请根据提示点击所提供的链接,以完成页面跳转。

image.png

5.浏览器会提示安全证书警告或错误,可以选择点击高级选项,然后点击继续前往以访问该网站。

image.png


应用体验

一、实时视觉理解通话

  1. 单击拨打按钮,即可开始与智能体对话,询问有关春节习俗。

image.png

  1. 浏览器弹窗请求使用麦克风,点击访问该网站时允许

image.png

  1. 浏览器弹窗请求使用摄像头,点击访问该网站时允许

image.png

  1. 用户可以与智能体进行实时视觉理解通话,页面上会同步展示当前对话的文字信息,以便用户查阅对话内容。

image.png

5.单击右上角的 image.png ,可以选择自然对话模式或者对讲机模式,以及开启/关闭智能打断

image.png

二、如何在移动端快速集成视觉理解通话

  1. 当前 DEMO 提供了移动端扫码体验,支持使用微信/钉钉扫码,或复制链接后在手机浏览器中打开。

image.png

  1. 接下来,即可在移动端体验视觉理解通话。

image.png



来源  |  阿里云开发者公众号

相关文章
|
1月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
411 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
3月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
193 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
479 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
7月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1611 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
7月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1394 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
6月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
565 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
7月前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
1103 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
7月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
825 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
2月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
496 14
|
3月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型