在我们日常工作生活之中,常见多人进行自由交谈的场景。如果将机器带入会话,做为其中的一位记录者或助理,就要求机器能高精度识别出“谁在什么时间说了什么内容”。
当前通用的语音识别系统可以高精度的识别单个说话人的语音,但是当场景中同时存在多个说话人自由交谈的时候,语音识别系统会面临更多样化的挑战。探索在多人自由交谈场景中的工业级解决方案,对于AI落地应用具有现实意义。
针对该问题,3D-Speaker开源项目专注于使用多模态方法(音频、语义、视频)来解决说话人相关任务,并在通义听悟上进行了落地实践。不仅可以做到在多人对话中区分发言人,而且结合大模型的能力针对每个发言人的内容进行发言总结。
通义听悟多说话人场景中的发言人区分
通义听悟传送带👇:
tingwu.aliyun.com