TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  2. 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
  3. 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。

正文(附运行示例)

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

  • 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  • 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
  • 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
  • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
  • 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
  • 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
  • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

TEN Agent 的技术原理

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
  • AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
  • 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
  • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
  • 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别 要求
密钥 • Agora App IDApp Certificate(每月免费分钟数)
OpenAI API 密钥
Deepgram ASR(注册后可获得免费积分)
FishAudio TTS(注册后可获得免费积分)
安装 Docker / Docker Compose
Node.js(LTS) v18
最低系统要求 • CPU >= 2 核
• RAM >= 4 GB

运行步骤

  1. 创建 .env 文件

    cp ./.env.example ./.env
    
    AI 代码解读
  2. .env 文件中设置 Agora App ID 和 App Certificate

    AGORA_APP_ID=
    AGORA_APP_CERTIFICATE=
    
    AI 代码解读
  3. 启动代理开发容器

    docker compose up -d
    
    AI 代码解读
  4. 进入容器

    docker exec -it ten_agent_dev bash
    
    AI 代码解读
  5. 构建代理

    task use
    
    AI 代码解读
  6. 启动 Web 服务器

    task run
    
    AI 代码解读
  7. 编辑 Playground 设置
    打开 localhost:3000 配置您的代理。您可以:

  • 选择图类型(如 Voice Agent、Realtime Agent)
  • 选择相应的模块
  • 自定义扩展属性和设置
  • 测试和验证您的配置

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
15
15
2
340
分享
相关文章
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
98 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
81 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
217 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
65 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
141 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。
58 1
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
39 9
PySpur:零代码构建AI工作流!开源可视化拖拽平台,支持多模态与RAG技术
PySpur 是一款开源的轻量级可视化 AI 智能体工作流构建器,支持拖拽式界面,帮助用户快速构建、测试和迭代 AI 工作流,无需编写复杂代码。它支持多模态数据处理、RAG 技术、文件上传、结构化输出等功能,适合非技术背景的用户和开发者快速上手。
169 5
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接
Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。
130 2

热门文章

最新文章