一条命令跑起实时同传：Qwen3.5 LiveTranslate 浏览器 Demo 开源了

2026-05-27 669

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义千问Qwen3.5 LiveTranslate浏览器端开源Demo，30秒体验超低延迟（2.5s首字）实时同传：支持60语种识别、29语种音色克隆语音输出、热词增强、视觉消歧，开箱即用。含完整WebSocket协议实现，助力快速集成。

你有没有遇到过这样的场景：老板丢来一个实时翻译 API 的文档链接，让你"接一下试试"——然后你发现，光是把麦克风采样、PCM 编码、WebSocket 子协议、流式音频回放这一整条链路跑通，就已经搭进去了两三天。

现在不需要了。

我们把 Qwen3.5 LiveTranslate 的完整浏览器端 Demo 开源了

克隆仓库，装依赖，一条 uvicorn 命令启动，打开浏览器就能体验实时同声传译——从麦克风输入到翻译文本和音频输出，全链路开箱即用。

GitHub 地址：https://github.com/modelstudioai/LiveTranslate-Demo/tree/main

为什么做这个 Demo
Qwen3.5 LiveTranslate（模型 ID：qwen3.5-livetranslate-flash-realtime）是通义千问语音团队推出的新一代实时同声传译模型。它已经通过阿里云百炼 / Model Studio 开放了 API，但如果你只看协议文档，很难直观感受到"实时"到底有多快、"音色克隆"到底像不像、"视觉消歧"到底怎么用。

这个 Demo 就是为了让你 30 秒内看到效果。

五项核心能力，一个 Demo 全部覆盖

多语向覆盖

能听懂 60 种语言，能说出 29 种语言的翻译音频。从中英日韩到阿拉伯语、印地语、冰岛语——覆盖范围远超常见同传方案。其余 31 种语言支持文本翻译输出。

超低延迟

首字延迟 2.5 秒，字均延迟 2.8 秒。基于全新"可读单元流式"技术，模型不等整句说完就开始翻译，但又不会像逐词翻译那样断裂——它以语义完整的"可读单元"为粒度流式输出。

实时音色克隆

翻译音频不是千篇一律的 TTS 机器音，而是实时复刻说话人的原始音色。你说中文，翻译出的英文"听起来还是你在说"。

热词增强

人名、地名、品牌名、行业术语——这些通用模型最容易翻错的词，可以通过热词表优先识别和翻译。在客户演示场景下，这个功能直接决定了翻译结果能不能用。

视觉消歧

打开摄像头模式后，模型会结合屏幕画面中的文字和场景信息来消除多义词歧义。比如当画面中出现"Apple"的 logo 时，模型知道说的是苹果公司而不是水果。

三步跑起来
环境要求： Python 3.10+，一个阿里云百炼 API Key（需要开通 qwen3.5-livetranslate-flash-realtime 模型权限）。

1. 克隆仓库

git clone https://github.com/modelstudioai/LiveTranslate-Demo.git
cd LiveTranslate-Demo

2. 安装依赖

python3 -m venv .venv
source .venv/bin/activate
python3 -m pip install -r requirements.txt

3. 启动

python3 -m uvicorn server:app --host 127.0.0.1 --port 8010
浏览器打开 http://127.0.0.1:8010，在页面上输入你的 API Key，选择区域（中国大陆 / 新加坡国际站），就可以开始了。

不确定 Key 是否有权限？项目自带了一个检测脚本：

export DASHSCOPE_API_KEY="your_key"
python3 check_access.py mainland # 或 intl
架构一览
整个 Demo 的架构非常简洁：

浏览器（HTML/JS）
├─ 采集 16kHz mono PCM 音频
├─ [Camera 模式] 采集 JPEG 帧
└─ 通过 WebSocket 发送到本地后端
│
FastAPI 后端（server.py）
└─ 代理转发到阿里云百炼 WebSocket 端点
│
Qwen3.5-LiveTranslate-Flash 模型
└─ 返回流式翻译文本 + 24kHz PCM 音频
前端负责采集和播放，后端只做代理转发。所有核心逻辑在模型侧完成。代码量很小（一个 server.py + 一套静态文件），适合通读源码后直接参照接入到自有产品中。

作为 API 接入参考实现
这个 Demo 不只是"看效果"的玩具。它完整展示了阿里云百炼实时语音 API 的子协议实现：

session.update：配置翻译方向、热词表、输出模态
input_audio_buffer.append：流式推送音频数据
input_image_buffer.append：推送视觉帧（Camera 模式）
流式响应解析：处理增量文本和音频 chunk
如果你正在考虑把实时翻译能力集成到自己的产品中，直接读这个 Demo 的代码比看文档快得多。

双 Region 支持
内置中国大陆和新加坡国际站两个 Region 切换：

中国大陆：wss://dashscope.aliyuncs.com/api-ws/v1/realtime
国际站：wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime
页面上一个下拉框切换，满足不同区域的合规要求。

试试看
如果你做的事情和"实时翻译"沾边——无论是国际会议场景、跨语言客服、直播同传、还是教育领域的语言学习——这个 Demo 可以帮你在 5 分钟内验证 Qwen3.5 LiveTranslate 是否满足需求。

觉得有用的话，给个 Star 支持一下：

https://github.com/modelstudioai/LiveTranslate-Demo/tree/main有问题或建议欢迎提 Issue，PR 也随时欢迎。

一条命令跑起实时同传：Qwen3.5 LiveTranslate 浏览器 Demo 开源了

我们把 Qwen3.5 LiveTranslate 的完整浏览器端 Demo 开源了

五项核心能力，一个 Demo 全部覆盖

1. 克隆仓库

2. 安装依赖

3. 启动

阿里云百炼

热门文章

最新文章

相关电子书