如何给AI一双“懂节奏”的耳朵?

简介: VARSTok 是一种可变帧率语音分词器,能智能感知语音节奏,动态调整 token 长度。它通过时间感知聚类与隐式时长编码,在降低码率的同时提升重建质量,实现高效、自然的语音处理,适配多种应用场景。

如何将一段连续的、信息密度不均的波形,变成一串 AI 能够理解和处理的“密码”?关键在于语音分词器——它就像是 AI 的“语音耳朵”,负责将声音信号转换成离散的符号序列。然而,现有的语音分词器大多采用固定帧率,比如每秒生成 75 个 token,无论语音是快是慢、是静是动。这种“一刀切”的方式显然不够高效。为了解决这个问题,我们提出了 VARSTok 可变帧率语音分词器它能智能地根据语音内容动态分配 Token,实现 “用更少的‘密码’,说出更自然的话” 。


什么是 VARSTok?

Variable-frame-Rate Speech Tokenizer

VARSTok 是一款“能听懂节奏”的智能语音分词器,模仿人类对语音的感知方式,让语音分词更符合人类语音的本质规律。

9E6483A9-5EEF-4944-8FEA-AB2042FCEB9B.png 01

01 | 时间感知的密度峰值聚类

为了解决固定帧率带来的效率低下问题,VARSTok 提出了时间感知的密度峰值聚类算法,根据语音信号局部特征的相似性,自适应地将其分割为长度可变的单元。智能地识别出语音中需要更精细表示(短token)和可以粗略表示(长token)的区域

BDDC6F71-453B-40fd-A881-43533316C501.png

VARSTok 的“智能切分”可视化图(VARSTok 根据语音内容的复杂度动态调整 token 长度

核心原理分为三步:

1、定位聚类中心通过分析每一语音帧的局部密度峰值距离,得到“峰值得分”,从而识别出语音中具有代表性的稳定状态或显著变化的起点。

2、时序约束下的区域合并从中心出发,在时间轴上进行双向合并。候选帧必须同时满足与中心帧足够相似,且在时间上与当前聚类直接相邻,以此保证生成的单元是连续的时间片段。

3、生成变长单元合并完成后,每个单元内所有帧的特征被平均池化为一个整体表示,并记录其时间跨度。最终输出一系列长度可变、时序连续的语音单元。

该方法的核心优势在于:实现了对语音信息的“按需分配”。在平稳或冗余段落(如长元音、静音)生成长单元以压缩数据;在复杂或关键段落(如辅音转换、情感重音)则生成短单元以保留细节,在保障语音质量的同时,显著提升编码效率

02 | 隐式时长编码

生成变长单元后,如何将其有效表示并嵌入下游模型成为关键。VARSTok 创新性地设计了一种隐式时长编码方案,无需引入额外的时长预测模块。

通过一个统一的索引 ID,将一个 Token 的内容(码本索引 kn)和持续时间(帧数 dn)共同编码起来。计算公式为:

image.png

在解码阶段,通过简单的逆运算即可无损还原出时长 image.png 和内容 image.png

image.png

VARSTok 模型概览

这种编码方式的关键优势在于:它允许 VARSTok 生成的 token 序列能被标准的自回归语音语言模型(Speech LM)直接处理,如同处理文本token一样,实现了与下游模型的无缝集成,并极大简化了系统架构。

image.png



01 | 更低的码率,达成更优的重建质量

在语音重建任务中,VARSTok 用更少的“密码”,还原出了更自然、更接近真人语调的声音。在平均 token 率低至 30.95 Hz 的情况下,重建语音的自然度(UTMOS)达到了3.8949超越了40 Hz固定帧率基线模型(UTMOS: 3.6107)。

当配置为 τ=0.8 时,VARSTok 的 UTMOS 得分为 4.0000,几乎追平了使用 75 Hz 高帧率的基线模型,使用的 token 数还不到后者的一半

image.png

VARSTok 在语音重建任务中的性能对比

实验结果表明,VARSTok 在平均码率比 40 Hz 基线低 23% 的情况下,重建语音的自然度(UTMOS)不仅未下降,反而更高。当追求极致保真时,其性能也几乎追平了 75 Hz 高帧率模型,而 token 数量却不到一半。


02 | 无缝集成下游任务,带来性能飞跃

VARSTok 的核心创新之一隐式时长编码,使其输出的 token 序列能够被语音生成模型(如TTS系统)直接识别与使用,无需任何转换或适配。省去了复杂的额外预测模块,极大简化了从语音编码到生成的完整流程。

这种“开箱即用”的特性,在语音合成任务中展现了显著优势。实验结果表明,基于 VARSTok 训练的 TTS 模型,在生成语音的自然度清晰度上均优于固定帧率基线:

  • 在 36.81 Hz 的平均帧率下(配置 τ=0.8),合成语音的 UTMOS 自然度评分达到 4.246,显著高于40 Hz固定帧率基线的 3.920
  • 词错误率从基线的 7.481% 降低至 6.787%,证明其合成语音的清晰度和可懂度更高。
  • 人类主观听感测试进一步确认,VARSTok在 自然度和说话人相似度上均获得更高评分。

A31C2FAE-32EC-4ba8-9BC1-01C6EA0AF917.png

                                                                                             VARSTok 在零样本TTS任务中的客观性能对比

image.png

                                                                                         VARSTok 在零样本 TTS 任务中的主观听感评测结果

03 | 提供灵活可控的权衡机制

VARSTok 提供了精细的“效率-质量”调控能力,你可以通过调整相似性阈值自由选择工作模式:是追求极致压缩(如 τ=0.6,token率26.29 Hz),还是追求最高保真(如 τ=0.8,质量媲美75 Hz)。这种灵活性使 VARSTok 能适应从低延迟边缘设备到高质量云端服务的多样化场景,远非固定帧率模型所能比拟。

image.png

                                                                                                        VARSTok 的“效率-质量”权衡可视化

从“固定帧率”到“动态感知”,VARSTok 完成了一次高效的进化。它用更少的 Token 说出更自然的话,并将这种能力无缝交给了下游模型。


无论你是想提升语音合成的自然度,还是追求边缘端的极致压缩VARSTok 都值得一试。文章篇幅有限,论文与更多细节,请在公众号后台回复 “VARSTok” 获取。

相关文章
|
2月前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
373 55
|
2月前
|
人工智能 自然语言处理 搜索推荐
文章“找茬”神器——媒体行业AI智能校对方案
年初DeepSeek大模型火爆以后,各行各业都在加速建设AI相关的场景,媒体行业无疑是大模型场景适配较好的一个行业。大模型凭借强大的内容生成能力,可以深度渗透内容生产的全链路环节,从热点事件的智能抓取、新闻稿件的快速生成,文章智能校对、个性化润色,大模型几乎可以重构传统内容生产流程。
372 15
|
2月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
1749 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
2月前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
1597 89
大厂CIO独家分享:AI如何重塑开发者未来十年
|
2月前
|
机器人 数据挖掘 API
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
Dify 作为一款低代码 AI 应用开发平台,凭借其直观的可视化工作流编排能力,极大降低了大模型应用的开发门槛。
491 22
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
|
1月前
|
Kubernetes Cloud Native Nacos
MCP 网关实战:基于 Higress + Nacos 的零代码工具扩展方案
本文介绍一种基于开源 Higress 与 Nacos 的私有化 MCP 智能体网关架构,实现工具动态注册、Prompt 实时更新、多租户安全隔离,并支持在无外网、无 Helm 的生产环境中一键部署。
390 25
MCP 网关实战:基于 Higress + Nacos 的零代码工具扩展方案
|
2月前
|
数据采集 人工智能 自然语言处理
让跨境电商“懂文化”:AI内容生成在全球民族特色品类中的实践
本文提出并落地了一套基于大模型与民族文化知识库的民族品类智能识别与匹配方案,旨在解决跨境电商平台在服务穆斯林、印度裔等特定民族群体时面临的“供需错配”难题。
630 27
|
1月前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
1453 89