如何将一段连续的、信息密度不均的波形,变成一串 AI 能够理解和处理的“密码”?关键在于语音分词器——它就像是 AI 的“语音耳朵”,负责将声音信号转换成离散的符号序列。然而,现有的语音分词器大多采用固定帧率,比如每秒生成 75 个 token,无论语音是快是慢、是静是动。这种“一刀切”的方式显然不够高效。为了解决这个问题,我们提出了 VARSTok 可变帧率语音分词器它能智能地根据语音内容动态分配 Token,实现 “用更少的‘密码’,说出更自然的话” 。
什么是 VARSTok?
Variable-frame-Rate Speech Tokenizer
VARSTok 是一款“能听懂节奏”的智能语音分词器,模仿人类对语音的感知方式,让语音分词更符合人类语音的本质规律。
01
01 | 时间感知的密度峰值聚类
为了解决固定帧率带来的效率低下问题,VARSTok 提出了时间感知的密度峰值聚类算法,根据语音信号局部特征的相似性,自适应地将其分割为长度可变的单元。智能地识别出语音中需要更精细表示(短token)和可以粗略表示(长token)的区域。
VARSTok 的“智能切分”可视化图(VARSTok 根据语音内容的复杂度动态调整 token 长度)
核心原理分为三步:
1、定位聚类中心:通过分析每一语音帧的局部密度与峰值距离,得到“峰值得分”,从而识别出语音中具有代表性的稳定状态或显著变化的起点。
2、时序约束下的区域合并:从中心出发,在时间轴上进行双向合并。候选帧必须同时满足与中心帧足够相似,且在时间上与当前聚类直接相邻,以此保证生成的单元是连续的时间片段。
3、生成变长单元:合并完成后,每个单元内所有帧的特征被平均池化为一个整体表示,并记录其时间跨度。最终输出一系列长度可变、时序连续的语音单元。
该方法的核心优势在于:实现了对语音信息的“按需分配”。在平稳或冗余段落(如长元音、静音)生成长单元以压缩数据;在复杂或关键段落(如辅音转换、情感重音)则生成短单元以保留细节,在保障语音质量的同时,显著提升编码效率。
02 | 隐式时长编码
生成变长单元后,如何将其有效表示并嵌入下游模型成为关键。VARSTok 创新性地设计了一种隐式时长编码方案,无需引入额外的时长预测模块。
通过一个统一的索引 ID,将一个 Token 的内容(码本索引 kn)和持续时间(帧数 dn)共同编码起来。计算公式为:
在解码阶段,通过简单的逆运算即可无损还原出时长 和内容
VARSTok 模型概览
这种编码方式的关键优势在于:它允许 VARSTok 生成的 token 序列能被标准的自回归语音语言模型(Speech LM)直接处理,如同处理文本token一样,实现了与下游模型的无缝集成,并极大简化了系统架构。
01 | 更低的码率,达成更优的重建质量
在语音重建任务中,VARSTok 用更少的“密码”,还原出了更自然、更接近真人语调的声音。在平均 token 率低至 30.95 Hz 的情况下,重建语音的自然度(UTMOS)达到了3.8949,超越了40 Hz固定帧率基线模型(UTMOS: 3.6107)。
当配置为 τ=0.8 时,VARSTok 的 UTMOS 得分为 4.0000,几乎追平了使用 75 Hz 高帧率的基线模型,使用的 token 数还不到后者的一半。
VARSTok 在语音重建任务中的性能对比
实验结果表明,VARSTok 在平均码率比 40 Hz 基线低 23% 的情况下,重建语音的自然度(UTMOS)不仅未下降,反而更高。当追求极致保真时,其性能也几乎追平了 75 Hz 高帧率模型,而 token 数量却不到一半。
02 | 无缝集成下游任务,带来性能飞跃
VARSTok 的核心创新之一隐式时长编码,使其输出的 token 序列能够被语音生成模型(如TTS系统)直接识别与使用,无需任何转换或适配。省去了复杂的额外预测模块,极大简化了从语音编码到生成的完整流程。
这种“开箱即用”的特性,在语音合成任务中展现了显著优势。实验结果表明,基于 VARSTok 训练的 TTS 模型,在生成语音的自然度与清晰度上均优于固定帧率基线:
- 在 36.81 Hz 的平均帧率下(配置 τ=0.8),合成语音的 UTMOS 自然度评分达到 4.246,显著高于40 Hz固定帧率基线的 3.920。
- 词错误率从基线的 7.481% 降低至 6.787%,证明其合成语音的清晰度和可懂度更高。
- 人类主观听感测试进一步确认,VARSTok在 自然度和说话人相似度上均获得更高评分。
VARSTok 在零样本TTS任务中的客观性能对比
VARSTok 在零样本 TTS 任务中的主观听感评测结果
03 | 提供灵活可控的权衡机制
VARSTok 提供了精细的“效率-质量”调控能力,你可以通过调整相似性阈值,自由选择工作模式:是追求极致压缩(如 τ=0.6,token率26.29 Hz),还是追求最高保真(如 τ=0.8,质量媲美75 Hz)。这种灵活性使 VARSTok 能适应从低延迟边缘设备到高质量云端服务的多样化场景,远非固定帧率模型所能比拟。
VARSTok 的“效率-质量”权衡可视化
从“固定帧率”到“动态感知”,VARSTok 完成了一次高效的进化。它用更少的 Token 说出更自然的话,并将这种能力无缝交给了下游模型。
无论你是想提升语音合成的自然度,还是追求边缘端的极致压缩,VARSTok 都值得一试。文章篇幅有限,论文与更多细节,请在公众号后台回复 “VARSTok” 获取。