TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  2. 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
  3. 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。

正文(附运行示例)

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

  • 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  • 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
  • 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
  • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
  • 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
  • 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
  • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

TEN Agent 的技术原理

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
  • AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
  • 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
  • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
  • 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别 要求
密钥 • Agora App IDApp Certificate(每月免费分钟数)
OpenAI API 密钥
Deepgram ASR(注册后可获得免费积分)
FishAudio TTS(注册后可获得免费积分)
安装 Docker / Docker Compose
Node.js(LTS) v18
最低系统要求 • CPU >= 2 核
• RAM >= 4 GB

运行步骤

  1. 创建 .env 文件

    cp ./.env.example ./.env
    
  2. .env 文件中设置 Agora App ID 和 App Certificate

    AGORA_APP_ID=
    AGORA_APP_CERTIFICATE=
    
  3. 启动代理开发容器

    docker compose up -d
    
  4. 进入容器

    docker exec -it ten_agent_dev bash
    
  5. 构建代理

    task use
    
  6. 启动 Web 服务器

    task run
    
  7. 编辑 Playground 设置
    打开 localhost:3000 配置您的代理。您可以:

  • 选择图类型(如 Voice Agent、Realtime Agent)
  • 选择相应的模块
  • 自定义扩展属性和设置
  • 测试和验证您的配置

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
51 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
6天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
84 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
2天前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
55 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
58 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
54 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
|
5天前
|
人工智能 Cloud Native 大数据
云+AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛
本次分享的主题是云 + AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛,由阿里巴巴集团合伙人、阿里云基础设施事业部总经理蒋江伟分享。
|
4天前
|
人工智能 JavaScript 前端开发
一段 JavaScript 代码,集成网站AI语音助手
根据本教程,只需通过白屏化的界面操作,即可快速构建一个专属的AI智能体。
|
6天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
2天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
94 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
14天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
80 31

热门文章

最新文章