6月1日,阿里云宣布通义家族系列产品新进展,聚焦音视频内容记录和理解分析的AI助手“通义听悟”正式上线,并面向公众开放公测。通义听悟内置了通义千问大模型的理解与摘要能力,结合阿里云在音频AI领域深厚的积累,可帮助用户高效地完成对音频视频内容的记录、转写、摘要、整理和分析,实现通义大模型能力与场景化应用的结合,成为人人都可亲手体验和使用的效率工具。
通义听悟是通义家族第一个面向大众消费者端的应用产品。在多媒体时代,人们每天记录、分享和观看大量的音频视频内容,通义听悟通过前沿的语音AI技术,能够准确地将音频视频内容转写为易读的文字。不仅如此,结合通义千问大语言模型的强大理解能力,通过全文摘要、章节速览、发言总结等功能,使用户能够从不同角度“一目十行”地更高效“阅读”音视频内容。随着大模型能力的飞速进步,通义听悟能为用户提供更多先进的能力,帮助用户梳理和挖掘出音视频内容中的信息价值,并将所有的记录和收集都沉淀为知识资产,随时供用户回顾和利用。
借助通义听悟,用户可以如实地记录一堂精彩的讲座、一次深度访谈或一场重要会议,它将成为用户身边的智能伙伴,“听”遍所有内容,“悟”得其中深意。
针对一些细分场景,听悟还有不少“宝藏功能”——
外语学习者和听障人士可以通过“实时语音识别+翻译”的功能随时随地看无字幕视频;
记者、分析师、律师朋友可以利用“问答回顾”功能,迅速拿到访谈笔记;
对于上班族来说,AI还可成为“开会替身”,解放双手,自动产出会议纪要;
学生们可以用“章节速览”功能,以最快速度学习和复习网课并抓住重要知识点的内容。
“依托大模型,为每一个人提供全新的音视频体验”,阿里云CTO周靖人介绍,通义听悟瞄准工作生活中日益增长的音频视频内容,帮助用户记录重要会议的要点,捕捉讲座中的精彩知识,整理访谈中的关键信息,为用户提供更深入、更高效的智能服务。通义听悟在阿里巴巴内部已经被广泛使用、并受到许多同学的喜爱。在项目经理、市场调研、文秘、人力资源等群体中更是被广泛使用。此次对外发布后,更广泛的用户将可以与我们一道体验到大模型带来的体验和效率提升。
(阿里云CTO周靖人)
在发布会上,听悟展现了它背后融合的十多项AI功能,全面提升了知识从音视频向图文形态转化的效率。除了“听力好”,能高准确度生成会议记录、区分不同发言人,这款产品“悟性也高”,通过大模型的能力加持,可以给音视频划分章节并形成摘要、总结全文及每个发言人观点、整理待办事项和关注重点,帮助用户完成对内容主旨思想的消费过程。通义听悟同时宣布包括高阶AI能力在内的全部功能,如大模型摘要功能,所有用户均可登陆体验。同时官网还提供了丰富的权益活动使用户能够赢取使用时长,来满足日常使用的需求。
通义听悟当前已经与阿里云盘打通,存储在阿里云盘中的音频视频内容可以方便地导入通义听悟进行AI的分析和理解,在云盘内在线播放视频时也可自动匹配字幕。绑定阿里云盘账号的听悟用户可以共享阿里云盘超大存储空间,进行个人音视频的管理。同时通义听悟的小程序版后续将在钉钉、阿里云盘、夸克等阿里旗下产品中推出,并与这些产品内部的场景功能及音视频内容融汇贯通。同时,通义听悟的AI能力也将进一步服务于阿里巴巴内部各类应用,如广受用户欢迎的“钉钉闪记”背后便集成了有关能力,为钉钉用户提供智能音视频会议、文档速记等产品。