Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互

简介: Kimi-Audio是月之暗面推出的开源音频基础模型,基于1300万小时多样化音频数据训练,采用混合输入架构和流式解码技术,支持语音识别、情感分析等十余种音频处理任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "Siri要失业?月之暗面开源音频核弹:1300万小时训练+多模态混合架构,语音交互迎来iPhone时刻"

大家好,我是蚝油菜花。当同行还在为语音识别准确率挣扎时,这个国产模型已经让机器「听懂」人类的情感波动!你是否经历过这些AI耳背现场——

  • 👉 会议录音转文字总把专业术语变成神秘代码
  • 👉 语音助手把愤怒投诉识别成"谢谢反馈"
  • 👉 想用AI生成有声书,结果机械朗读堪比恐怖片旁白...

今天拆解的 Kimi-Audio ,正在重定义声音智能!月之暗面这支「音频手术刀」:

  • 混合感知架构:同时处理声学特征+语义标记,听懂弦外之音
  • 流式生成黑科技:分块解码实现实时响应,延迟直降80%
  • 十项全能选手:从语音转写到情感分析,一套模型全搞定

已有教育机构用它开发口语教练,客服系统靠它识别用户情绪——你的麦克风,准备好接入「AI读心术」了吗?

🚀 快速阅读

Kimi-Audio是月之暗面推出的开源音频基础模型。

  1. 功能:支持语音识别、情感分析、音频生成等10余种任务
  2. 技术:采用混合输入架构与流匹配解码,训练数据达1300万小时

Kimi-Audio 是什么

Kimi-Audio

Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。

核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。

Kimi-Audio 的主要功能

  • 语音识别:能将语音信号转换为文本内容,支持多种语言和方言
  • 情感识别:分析语音中的情感信息,判断说话者的情绪状态
  • 场景分类:识别和分类环境声音或场景特征
  • 音频字幕:根据音频内容自动生成辅助字幕
  • 语音合成:将文本转换为自然流畅的语音输出
  • 多轮对话:处理复杂上下文并生成连贯语音回应

Kimi-Audio 的技术原理

  • 混合输入架构:同时处理离散语义标记和Whisper编码的连续声学特征
  • LLM核心:基于Qwen 2.5 7B模型初始化,支持并行生成能力
  • 流匹配解码:分块处理实现低延迟,支持前瞻机制优化流畅度
  • BigVGAN声码器:确保生成波形的高保真度

如何运行 Kimi-Audio

获取代码

git clone https://github.com/MoonshotAI/Kimi-Audio.git
cd Kimi-Audio
git submodule update --init --recursive
pip install -r requirements.txt

快速入门

以下示例展示了基本的使用方法,包括从音频生成文本(ASR)以及在对话中生成文本和语音。

import soundfile as sf
from kimia_infer.api.kimia import KimiAudio

# --- 1. 加载模型 ---
model_path = "moonshotai/Kimi-Audio-7B-Instruct" 
model = KimiAudio(model_path=model_path, load_detokenizer=True)

# --- 2. 定义采样参数 ---
sampling_params = {
   
    "audio_temperature": 0.8,
    "audio_top_k": 10,
    "text_temperature": 0.0,
    "text_top_k": 5,
    "audio_repetition_penalty": 1.0,
    "audio_repetition_window_size": 64,
    "text_repetition_penalty": 1.0,
    "text_repetition_window_size": 16,
}

# --- 3. 示例 1: 音频到文本 (ASR) ---
messages_asr = [
    # 提供上下文或指令
    {
   "role": "user", "message_type": "text", "content": "请转录以下音频:"},
    # 提供音频文件路径
    {
   "role": "user", "message_type": "audio", "content": "test_audios/asr_example.wav"}
]

# 仅生成文本输出
_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")
print(">>> ASR 输出文本: ", text_output) # 预期输出: "这并不是告别,这是一个篇章的结束,也是新篇章的开始。"

# --- 4. 示例 2: 音频到音频/文本对话 ---
messages_conversation = [
    # 用音频查询开始对话
    {
   "role": "user", "message_type": "audio", "content": "test_audios/qa_example.wav"}
]

# 生成音频和文本输出
wav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type="both")

# 保存生成的音频
output_audio_path = "output_audio.wav"
sf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # 假设输出为 24kHz
print(f">>> 对话输出音频保存到: {output_audio_path}")
print(">>> 对话输出文本: ", text_output) # 预期输出: "A."

print("Kimi-Audio 推理示例完成。")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
642 78
|
1月前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
13天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
12天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
156 9
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。
|
12天前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
94 4
|
19天前
|
搜索推荐
大模型训练常见通信源语解释
本文总结了在大模型分布式训练中常用的通信原语,包括一对多操作(Broadcast、Scatter)、多对一操作(Gather、Reduce)以及多对多操作(AllGather、AllReduce、ReduceScatter、All-To-All)。这些操作在模型并行和数据并行场景中起到关键作用,如参数初始化、数据切分与汇聚、规约运算等。通过详细介绍每种通信方式的功能与应用场景,帮助理解分布式训练中的数据交互机制。
|
1月前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
349 7

热门文章

最新文章

相关产品

  • 智能语音交互
  • 下一篇
    oss创建bucket