一条命令跑起实时同传:Qwen3.5 LiveTranslate 浏览器 Demo 开源了

简介: 通义千问Qwen3.5 LiveTranslate浏览器端开源Demo,30秒体验超低延迟(2.5s首字)实时同传:支持60语种识别、29语种音色克隆语音输出、热词增强、视觉消歧,开箱即用。含完整WebSocket协议实现,助力快速集成。

你有没有遇到过这样的场景:老板丢来一个实时翻译 API 的文档链接,让你"接一下试试"——然后你发现,光是把麦克风采样、PCM 编码、WebSocket 子协议、流式音频回放这一整条链路跑通,就已经搭进去了两三天。

现在不需要了。

我们把 Qwen3.5 LiveTranslate 的完整浏览器端 Demo 开源了

克隆仓库,装依赖,一条 uvicorn 命令启动,打开浏览器就能体验实时同声传译——从麦克风输入到翻译文本和音频输出,全链路开箱即用。

GitHub 地址:https://github.com/modelstudioai/LiveTranslate-Demo/tree/main

为什么做这个 Demo
Qwen3.5 LiveTranslate(模型 ID:qwen3.5-livetranslate-flash-realtime)是通义千问语音团队推出的新一代实时同声传译模型。它已经通过阿里云百炼 / Model Studio 开放了 API,但如果你只看协议文档,很难直观感受到"实时"到底有多快、"音色克隆"到底像不像、"视觉消歧"到底怎么用。

这个 Demo 就是为了让你 30 秒内看到效果。

五项核心能力,一个 Demo 全部覆盖

  1. 多语向覆盖

能听懂 60 种语言,能说出 29 种语言的翻译音频。从中英日韩到阿拉伯语、印地语、冰岛语——覆盖范围远超常见同传方案。其余 31 种语言支持文本翻译输出。

  1. 超低延迟

首字延迟 2.5 秒,字均延迟 2.8 秒。基于全新"可读单元流式"技术,模型不等整句说完就开始翻译,但又不会像逐词翻译那样断裂——它以语义完整的"可读单元"为粒度流式输出。

  1. 实时音色克隆

翻译音频不是千篇一律的 TTS 机器音,而是实时复刻说话人的原始音色。你说中文,翻译出的英文"听起来还是你在说"。

  1. 热词增强

人名、地名、品牌名、行业术语——这些通用模型最容易翻错的词,可以通过热词表优先识别和翻译。在客户演示场景下,这个功能直接决定了翻译结果能不能用。

  1. 视觉消歧

打开摄像头模式后,模型会结合屏幕画面中的文字和场景信息来消除多义词歧义。比如当画面中出现"Apple"的 logo 时,模型知道说的是苹果公司而不是水果。

三步跑起来
环境要求: Python 3.10+,一个阿里云百炼 API Key(需要开通 qwen3.5-livetranslate-flash-realtime 模型权限)。

1. 克隆仓库

git clone https://github.com/modelstudioai/LiveTranslate-Demo.git
cd LiveTranslate-Demo

2. 安装依赖

python3 -m venv .venv
source .venv/bin/activate
python3 -m pip install -r requirements.txt

3. 启动

python3 -m uvicorn server:app --host 127.0.0.1 --port 8010
浏览器打开 http://127.0.0.1:8010,在页面上输入你的 API Key,选择区域(中国大陆 / 新加坡国际站),就可以开始了。

不确定 Key 是否有权限?项目自带了一个检测脚本:

export DASHSCOPE_API_KEY="your_key"
python3 check_access.py mainland # 或 intl
架构一览
整个 Demo 的架构非常简洁:

浏览器(HTML/JS)
├─ 采集 16kHz mono PCM 音频
├─ [Camera 模式] 采集 JPEG 帧
└─ 通过 WebSocket 发送到本地后端

FastAPI 后端(server.py)
└─ 代理转发到阿里云百炼 WebSocket 端点

Qwen3.5-LiveTranslate-Flash 模型
└─ 返回流式翻译文本 + 24kHz PCM 音频
前端负责采集和播放,后端只做代理转发。所有核心逻辑在模型侧完成。代码量很小(一个 server.py + 一套静态文件),适合通读源码后直接参照接入到自有产品中。

作为 API 接入参考实现
这个 Demo 不只是"看效果"的玩具。它完整展示了阿里云百炼实时语音 API 的子协议实现:

session.update:配置翻译方向、热词表、输出模态
input_audio_buffer.append:流式推送音频数据
input_image_buffer.append:推送视觉帧(Camera 模式)
流式响应解析:处理增量文本和音频 chunk
如果你正在考虑把实时翻译能力集成到自己的产品中,直接读这个 Demo 的代码比看文档快得多。

双 Region 支持
内置中国大陆和新加坡国际站两个 Region 切换:

中国大陆:wss://dashscope.aliyuncs.com/api-ws/v1/realtime
国际站:wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime
页面上一个下拉框切换,满足不同区域的合规要求。

试试看
如果你做的事情和"实时翻译"沾边——无论是国际会议场景、跨语言客服、直播同传、还是教育领域的语言学习——这个 Demo 可以帮你在 5 分钟内验证 Qwen3.5 LiveTranslate 是否满足需求。

觉得有用的话,给个 Star 支持一下:

https://github.com/modelstudioai/LiveTranslate-Demo/tree/main有问题或建议欢迎提 Issue,PR 也随时欢迎。

相关文章
|
8月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
962 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
22天前
|
人工智能 JSON 自然语言处理
阿里云百炼产品月报【2026年5月】
本月阿里云百炼平台重磅升级:发布Qwen3.7系列大模型(Max版推理后付费5折)、Qwen3.5实时语音翻译模型及HappyHorse-1.0(8折体验);上线官方CLI工具,支持10+模态一键调用;Token Plan支持多座席共享与精细化管理;MCP广场新增航班、天气等专业服务;金融、法律垂直领域上新20+智能应用模板。
328 3
|
3月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
46797 72
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
6月前
|
人工智能 Shell Linux
2026年Clawdbot(Moltbot)部署配置阿里云百炼API完整教程指南
Moltbot(原Clawdbot)是一款开源AI个人助手,支持本地部署,兼容MacOS、Windows、Linux等多种系统,可接入钉钉、飞书、WhatsApp等常用聊天工具,通过自然语言控制设备与服务。它作为功能强大的自动化工具,支持Qwen、Claude、GPT等主流大语言模型,能处理邮件、日程安排、市场调研等自动化任务,也可作为个人知识库随时响应查询,适用于24小时在线AI助手部署、自定义自动化流程搭建等场景。阿里云百炼Coding Plan套餐已支持Moltbot接入,可抵扣通义千问系列大模型,本文将详细拆解Moltbot安装、百炼API配置及套餐适配流程,确保不改变原意且无营销表述
2927 8
|
2月前
|
人工智能 Linux API
全平台零门槛:Win11、Mac、Linux 通用 Hermes Agent 安装教程
Hermes Agent是Nous Research开源的自进化AI助手(MIT协议),越用越懂你。支持多工具并行、自动记忆习惯,Python编写,v0.13.0版。兼容Win/macOS/Linux/Docker,国内用户可配清华镜像快速部署,需API密钥(如Kimi)。
|
2月前
|
人工智能 前端开发 JavaScript
用AI重塑RPA稳定性:实在Agent TARS语义定位技术拆解与落地实践
实在智能在实在Agent v7.3.4中推出TARS AI元素定位技术,通过视觉-语义联合建模,实现多模态编码、语义锚点生成与动态匹配优化,显著提升RPA在敏捷前端环境下的元素识别稳定性与自适应能力,配置即用,助力企业自动化迈向真正无人值守。(239字)
|
2月前
|
数据采集 人工智能 监控
办公Agent + 企业知识库:自动生成季度报告与竞品分析文档
本文揭秘一款专为企业打造的办公Agent:它能自动连通CRM、飞书、竞品官网等知识源,按模板生成季度复盘与竞品分析初稿,引用皆可溯源。实测报告撰写从12小时缩至3分钟,人工仅需微调。不吹“全能”,只解决找资料慢、信息散、更新滞三大痛点。(239字)
241 4
|
3月前
|
机器学习/深度学习 数据采集 算法
6类钢材表面缺陷检测数据集(6000张)|YOLO训练数据集 工业质检 缺陷识别 智能制造 表面检测
本数据集含6000张真实工业场景钢材表面图像,精准标注6类典型缺陷(裂纹、夹杂、斑块、麻面、氧化皮压入、划痕),采用YOLO标准格式,结构规范、质量高,可直接用于YOLOv5/v8等模型训练,助力工业质检智能化升级。

热门文章

最新文章