TEN Agent：开源的实时多模态 AI 代理框架，支持语音、文本和图像的实时通信交互

2024-12-12 386 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： TEN Agent 是一个开源的实时多模态 AI 代理框架，集成了 OpenAI Realtime API 和 RTC 技术，支持语音、文本和图像的多模态交互，具备实时通信、模块化设计和多语言支持等功能，适用于智能客服、实时语音助手等多种场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

多模态交互：支持语音、文本和图像的交互，提供自然的人机沟通方式。
实时通信：集成 RTC 技术，实现低延迟的语音和视频交互。
模块化设计：开发者可以轻松扩展功能，支持多语言和跨平台操作。

正文（附运行示例）

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互，支持高性能的实时通信，具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作，开发者可以通过模块化设计轻松扩展功能，如集成视觉识别和 RAG 能力。此外，TEN Agent 提供实时代理状态管理，让 AI 代理能够动态响应用户交互，适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

多模态交互：支持语音、文本和图像的交互，提供自然的人机沟通方式。
实时通信：集成 RTC 技术，实现低延迟的语音和视频交互，无需额外配置。
模块化设计：采用模块化设计，开发者可以像插件一样轻松添加新功能。
调试简便：提供从语音识别（STT）到文本处理（LLM）再到语音合成（TTS）的一站式服务，简化调试过程。
技术集成：集成 OpenAI 的实时 API，增强 AI 代理的能力。
多语言和多平台支持：支持多种编程语言（如 C++、Go、Python）和多个操作系统平台（包括 Windows、Mac、Linux 和移动设备）。
边缘云集成：支持边缘计算和云计算的集成，平衡隐私、成本和性能。

TEN Agent 的技术原理

OpenAI Realtime API 和 RTC 集成：TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合，实现超低延迟的交互体验。
AI 噪音抑制：RTC 模块具备 AI 噪音抑制功能，确保音频交互的流畅和高质量。
语音识别（STT）：将用户的语音转换为文本，便于 AI 代理处理。
语言模型（LLM）：处理转换后的文本，理解用户的意图，生成响应。
语音合成（TTS）：将 AI 代理的文本响应转换为语音，基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别	要求
密钥	• Agora App ID 和 App Certificate（每月免费分钟数） • OpenAI API 密钥 • Deepgram ASR（注册后可获得免费积分） • FishAudio TTS（注册后可获得免费积分）
安装	• Docker / Docker Compose • Node.js(LTS) v18
最低系统要求	• CPU >= 2 核 • RAM >= 4 GB

运行步骤

创建 .env 文件：

cp ./.env.example ./.env

        
          
        
        
        
          
          AI 代码解读

在 .env 文件中设置 Agora App ID 和 App Certificate：

AGORA_APP_ID=
AGORA_APP_CERTIFICATE=

        
          
        
        
        
          
          AI 代码解读

启动代理开发容器：

docker compose up -d

        
          
        
        
        
          
          AI 代码解读

进入容器：

docker exec -it ten_agent_dev bash

        
          
        
        
        
          
          AI 代码解读

构建代理：

启动 Web 服务器：

编辑 Playground 设置：
打开 localhost:3000 配置您的代理。您可以：

选择图类型（如 Voice Agent、Realtime Agent）
选择相应的模块
自定义扩展属性和设置
测试和验证您的配置

资源

项目官网：https://agent.theten.ai/
GitHub 仓库：https://github.com/TEN-framework/TEN-Agent
在线体验 Demo：https://agent.theten.ai/

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

TEN Agent：开源的实时多模态 AI 代理框架，支持语音、文本和图像的实时通信交互

🚀 快速阅读

正文（附运行示例）

TEN Agent 是什么

TEN Agent 的主要功能

TEN Agent 的技术原理

如何运行 TEN Agent

前提条件

运行步骤

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

TEN Agent：开源的实时多模态 AI 代理框架，支持语音、文本和图像的实时通信交互

🚀 快速阅读

正文（附运行示例）

TEN Agent 是什么

TEN Agent 的主要功能

TEN Agent 的技术原理

如何运行 TEN Agent

前提条件

运行步骤

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景