TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  2. 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互。
  3. 模块化设计:开发者可以轻松扩展功能,支持多语言和跨平台操作。

正文(附运行示例)

TEN Agent 是什么

公众号: 蚝油菜花 - TEN-Agent

TEN Agent 是一个集成了 OpenAI Realtime API 和 RTC 技术的开源实时多模态 AI 代理框架。它能够实现语音、文本和图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。

TEN Agent 支持多语言和跨平台操作,开发者可以通过模块化设计轻松扩展功能,如集成视觉识别和 RAG 能力。此外,TEN Agent 提供实时代理状态管理,让 AI 代理能够动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

TEN Agent 的主要功能

  • 多模态交互:支持语音、文本和图像的交互,提供自然的人机沟通方式。
  • 实时通信:集成 RTC 技术,实现低延迟的语音和视频交互,无需额外配置。
  • 模块化设计:采用模块化设计,开发者可以像插件一样轻松添加新功能。
  • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
  • 技术集成:集成 OpenAI 的实时 API,增强 AI 代理的能力。
  • 多语言和多平台支持:支持多种编程语言(如 C++、Go、Python)和多个操作系统平台(包括 Windows、Mac、Linux 和移动设备)。
  • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

TEN Agent 的技术原理

  • OpenAI Realtime API 和 RTC 集成:TEN Agent 将 OpenAI 的实时 API 与 RTC 技术结合,实现超低延迟的交互体验。
  • AI 噪音抑制:RTC 模块具备 AI 噪音抑制功能,确保音频交互的流畅和高质量。
  • 语音识别(STT):将用户的语音转换为文本,便于 AI 代理处理。
  • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
  • 语音合成(TTS):将 AI 代理的文本响应转换为语音,基于 RTC 模块播放给用户听。

如何运行 TEN Agent

前提条件

类别 要求
密钥 • Agora App IDApp Certificate(每月免费分钟数)
OpenAI API 密钥
Deepgram ASR(注册后可获得免费积分)
FishAudio TTS(注册后可获得免费积分)
安装 Docker / Docker Compose
Node.js(LTS) v18
最低系统要求 • CPU >= 2 核
• RAM >= 4 GB

运行步骤

  1. 创建 .env 文件

    cp ./.env.example ./.env
    
  2. .env 文件中设置 Agora App ID 和 App Certificate

    AGORA_APP_ID=
    AGORA_APP_CERTIFICATE=
    
  3. 启动代理开发容器

    docker compose up -d
    
  4. 进入容器

    docker exec -it ten_agent_dev bash
    
  5. 构建代理

    task use
    
  6. 启动 Web 服务器

    task run
    
  7. 编辑 Playground 设置
    打开 localhost:3000 配置您的代理。您可以:

  • 选择图类型(如 Voice Agent、Realtime Agent)
  • 选择相应的模块
  • 自定义扩展属性和设置
  • 测试和验证您的配置

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
41 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
2天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
24 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
2天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
44 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
1天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
22 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
10天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
48 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
28天前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
105 13
AI经营|多Agent择优生成商品标题
|
9天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
19 7
|
17天前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
81 5
|
17天前
|
机器学习/深度学习 传感器 人工智能
2024.11|全球具身智能的端到端AI和具身Agent技术发展到哪里了
2024年,具身智能领域取得显著进展,特别是在端到端AI控制系统和多模态感知技术方面。这些技术不仅推动了学术研究的深入,也为科技公司在实际应用中带来了突破。文章详细介绍了端到端AI的演化、自监督学习的应用、多模态感知技术的突破、基于强化学习的策略优化、模拟环境与现实环境的迁移学习、长程任务规划与任务分解、人机协作与社会交互能力,以及伦理与安全问题。未来几年,具身智能将在多模态感知、自监督学习、任务规划和人机协作等方面继续取得重要突破。
43 2
|
29天前
|
人工智能 算法 搜索推荐
清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!
清华校友开发的LeanAgent智能体在数学推理领域取得重大突破,成功证明了162个未被人类证明的高等数学定理,涵盖抽象代数、代数拓扑等领域。LeanAgent采用“持续学习”框架,通过课程学习、动态数据库和渐进式训练,显著提升了数学定理证明的能力,为数学研究和教育提供了新的思路和方法。
52 3

热门文章

最新文章