文章来自 阿里语音AI公众号
继今年6月份,聚焦音视频内容的大模型产品“通义听悟”上线,成为国内首个开放公测的大模型应用产品。通义听悟作为工作学习AI助手,以通义千问大模型为基座,融合了音视频AI技术的功能和优势,拥有感知记忆、领悟理解和融会贯通的能力,全面提升知识从音视频向图文形态转化的效率,包括高准确度生成对话记录、快速出摘要总结、提取回答关键问题等。
(阿里云CTO周靖人 · 2023云栖大会)
近月来,一键提取PPT、发现更多播客内容、云盘文件一键听悟,对音视频内容提问的“小悟”助手等功能陆续上新。截止目前,通义听悟已累计服务100万用户,深受白领、学生、媒体人等群体的喜爱,每日处理音视频超过5万份。
00:13
(通义听悟新功能速览)在2023年云栖大会上,通义听悟AI能力再升级,推出“小悟助手”,方便用户直接对自己的记录进行提问和对话,不仅支持单记录及跨记录内容的问答,还支持多语言自由提问。同时,通义听悟还开放了API接口服务,所有功能皆可接入企业系统,通过大模型分析理解音视频资料,开发构建企业自己的听悟。
(通义实验室语音团队负责人鄢志杰 · 2023云栖大会)
正如通义实验室语音团队负责人鄢志杰所言:“随着API的开放,通义听悟的能力将通过行业专属大模型的定制进入垂直领域,并能为行业提供颇具壁垒的竞争力。我们特别期待与开发者们一道共创,让通义听悟的能力在更多的行业里开花结果。“
(通义听悟API获取方式)