❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
- 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
- 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。
正文(附运行示例)
TEN Agent 是什么
TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。
TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。
TEN Agent 的主要功能
- 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
- 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
- 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
- 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
- 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
- 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
- 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。
TEN Agent 的技术原理
- OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
- AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
- 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
- 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
- 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。
如何运行 TEN Agent
前提条件
类别 | 要求 |
---|---|
密钥 | • Agora App ID 和 App Certificate(每月免费分钟数) • OpenAI API 密钥 • Deepgram ASR(注册后可获得免费积分) • FishAudio TTS(注册后可获得免费积分) |
安装 | • Docker / Docker Compose • Node.js(LTS) v18 |
最低系统要求 | • CPU >= 2 核 • RAM >= 4 GB |
运行步骤
创建
.env
文件:cp ./.env.example ./.env
在
.env
文件中设置 Agora App ID 和 App Certificate:AGORA_APP_ID= AGORA_APP_CERTIFICATE=
启动代理开发容器:
docker compose up -d
进入容器:
docker exec -it ten_agent_dev bash
构建代理:
task use
启动 Web 服务器:
task run
编辑 Playground 设置:
打开 localhost:3000 配置您的代理。您可以:
- 选择图类型(如 Voice Agent、Realtime Agent)
- 选择相应的模块
- 自定义扩展属性和设置
- 测试和验证您的配置
资源
- 项目官网:https://agent.theten.ai/
- GitHub 仓库:https://github.com/TEN-framework/TEN-Agent
- 在线体验 Demo:https://agent.theten.ai/
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦