TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  2. 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
  3. 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。

正文(附运行示例)

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

  • 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  • 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
  • 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
  • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
  • 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
  • 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
  • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

TEN Agent 的技术原理

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
  • AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
  • 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
  • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
  • 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别 要求
密钥 • Agora App IDApp Certificate(每月免费分钟数)
OpenAI API 密钥
Deepgram ASR(注册后可获得免费积分)
FishAudio TTS(注册后可获得免费积分)
安装 Docker / Docker Compose
Node.js(LTS) v18
最低系统要求 • CPU >= 2 核
• RAM >= 4 GB

运行步骤

  1. 创建 .env 文件

    cp ./.env.example ./.env
    
    AI 代码解读
  2. .env 文件中设置 Agora App ID 和 App Certificate

    AGORA_APP_ID=
    AGORA_APP_CERTIFICATE=
    
    AI 代码解读
  3. 启动代理开发容器

    docker compose up -d
    
    AI 代码解读
  4. 进入容器

    docker exec -it ten_agent_dev bash
    
    AI 代码解读
  5. 构建代理

    task use
    
    AI 代码解读
  6. 启动 Web 服务器

    task run
    
    AI 代码解读
  7. 编辑 Playground 设置
    打开 localhost:3000 配置您的代理。您可以:

  • 选择图类型(如 Voice Agent、Realtime Agent)
  • 选择相应的模块
  • 自定义扩展属性和设置
  • 测试和验证您的配置

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
15
15
2
379
分享
相关文章
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
109 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
112 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色
InstantCharacter是腾讯混元团队基于扩散Transformer架构开发的开源图像生成工具,通过可扩展适配器和大规模角色数据集实现高保真、角色一致性的图像生成,支持单图输入和文本控制。
78 3
用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
85 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。
94 15
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
这个开源AI平台把文生图/音/字全包了!Pollinations.AI:提供完全免费的AI内容生成
Pollinations.AI 是一个开源的AI内容生成平台,提供免费的文本、图像、音频生成及转换API,无需注册即可使用,支持多种模型和自定义参数,适合开发者和创作者快速集成。
89 15
这个开源AI平台把文生图/音/字全包了!Pollinations.AI:提供完全免费的AI内容生成
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
字节跳动推出的豆包1.5·UI-TARS是首个整合视觉理解、逻辑推理与界面操作的GUI Agent模型,无需预定义规则即可完成复杂图形界面交互任务,已在火山方舟平台提供服务。
109 2
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
73 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
117 29
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
129 8

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等