AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

2025-04-08 1612

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集，包含41.25小时3-5岁儿童普通话语音数据，覆盖中国22个省级行政区，为儿童语音识别和语言发展研究提供高质量数据支持。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎙️ "AI终于能听懂宝宝说话了！41小时真实童声数据集开源，覆盖22省方言"
大家好，我是蚝油菜花。当主流语音模型还在用成人数据训练时，这个由顶尖学术机构打造的开源项目，正在攻克AI听不懂"奶音"的世界难题——

你是否见过这些AI翻车现场：

今天揭秘的 ChildMandarin 数据集，用三大突破重塑儿童语音技术：

已有团队用它将儿童ASR错误率降低42%，接下来带你拆解这个数据金矿的技术细节！

🚀 快速阅读

ChildMandarin是专为3-5岁儿童设计的普通话语音数据集。

ChildMandarin 是什么

ChildMandarin

ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）共同推出的，针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音数据，来自397名儿童，覆盖中国22个省级行政区，性别分布均衡。

数据用智能手机录制，确保高质量音频。ChildMandarin核心特点是自然真实交互，用家长引导式对话采集方式，模拟自然交流场景。数据集填补了低幼儿童语音研究的空白，推动儿童语音识别、语言发展研究及智能语音交互系统的发展。

数据采集：用家长引导式对话的方式，模拟自然交流场景，确保语音数据的真实性和自然性。数据采集覆盖中国22个省级行政区，确保不同地域口音的多样性。用智能手机（Android和iPhone）进行录音，确保音频质量高，采样率为16kHz，精度为16位。
数据标注：由专业转录人员进行手动标注，包括儿童的发音、停顿、重复等自然语言现象。标注说话人的年龄、性别、出生地、录音设备、口音等级等信息。
模型训练和评估：用多种ASR模型（如Transformer、Conformer、Paraformer）进行训练和评估，基于CTC、AED、RNN-T等技术。对预训练模型（如HuBERT、Whisper）进行微调，用在大规模数据上学习到的特征，提升儿童语音识别的性能。用说话人嵌入提取模型（如x-vector、ECAPA-TDNN、ResNet-TDNN）进行说话人验证任务，评估模型在儿童语音上的表现。
数据集设计：数据集分为训练集、验证集和测试集，确保模型训练和评估的科学性和有效性。基于多样化的数据采集和标注，确保数据集能够覆盖不同年龄段、性别、地域和口音的儿童语音。