阿里通义千问大模型加持,专攻音视频生产力的「听悟」来了

本文涉及的产品
视觉智能开放平台,图像资源包5000点
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,分割抠图1万点
简介: 阿里通义千问大模型加持,专攻音视频生产力的「听悟」来了


从通义千问到通义听悟的发布,间隔只不到两个月。

阿里用自己的大模型,给 AI 生产力工具来了一次大升级。今天上午,「通义」家族迎来了新成员 —— 阿里云旗下的 AI 会议助理产品「听悟」全新升级为「通义听悟」,依托通义千问语言模型、音视频 AI 模型能力,为用户带来音频和视频内容记录和阅读的全新体验。官网地址:tingwu.aliyun.com目前,「通义听悟」已上线服务网站,使用阿里云账号登录,公测期可体验所有 AI 功能。从现场演示中可以看出,听悟融合了十多项 AI 功能。面向线上线下各种泛音视频场景,「通义听悟」提供音视频内容的实时字幕 / 转写、多语言翻译、内容理解 / 摘要,涵盖全文概要、章节速览、发言总结等高阶 AI 功能,旨在帮助用户及客户在泛音视频内容场景下提升信息生产、整理、挖掘、洞察效率。 首先是「听力好」,比如能高准确度生成会议记录、区分不同发言人;此外是「悟性高」,大模型可以一秒给音视频划分章节并形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。另外,大模型一键提取 PPT、针对多个音视频内容向 AI 提问、概括特定段落等功能近期也将上线。针对一些细分场景,听悟还设置了不少「宝藏功能」:打开 Chrome 插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的「开会替身」,在静音情况下入会 AI 可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR 等群体整理访谈更高效。通义听悟 Chrome 插件将在近期对所有用户开放下载。据阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。具体到玩法,正如「通义听悟」的「自我介绍」中所说:

  • 如果你是一名职场人士,通义听悟可以帮你记录和回顾你的每一场会议;
  • 如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;
  • 如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;
  • 如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的内容。


接下来,让我们看看「通义听悟」的本领如何。学习效率提升利器首先,用户可以本地上传音视频,选择转写语言并上传文件,即可生成课程文字记录。

从阿里云盘直接导入也是可以的:通义听悟支持一键导入阿里云盘音视频文件。据了解,公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。如果用户选择在「通义听悟」中播放课程视频,还可以实现文字与视频进度一一对应。点击文字还可以跳转进度,随意切换感兴趣的内容。

此外,「通义听悟」能够帮忙总结课程关键词和议程,方便学习者了解课程要点、回顾讲解片段。如果你想复习一下学习过程的疑点、难点,可以打开听悟实验室,开启「问题回顾」,即可回顾课程中的答疑内容。想要快速复习要点,则可以使用「只看标记」功能,筛选高亮内容,复习更高效。你可以在右侧笔记中记录核心知识点,将课程原文一键摘取至笔记中。几小时的课程,五分钟即可完成笔记。再使用分享功能,你可以将记录共享给其他用户,让知识流动起来。更加高效的会议体验面向会议日程繁多的「打工人」,「通义听悟」也新增了多项效率工具。会议开始前,打开「开启实时记录」功能,可以将沟通内容实时转文字,完整记录会议信息。

编辑标题,在右侧笔记中输入会议待讨论事项。

在会议进行过程中,你可以修改识别结果,边听边记录,无需二次整理;也可以编辑发言人,将经常一起开会的同事设为常用发言人,后续会议无需再次输入。

跨国会议中,可以开启翻译,支持双语对照和纯译文显示,沟通更顺畅。

会议结束后,点击结束录音按钮,选择本次会议发言人数并确认,「通义听悟」即可生成记录。不仅会总结关键词和议程,还能自动区分不同发言人,帮助快速掌握会议要点。

此时,打开听悟实验室,即可查看值得关注的要点、待办事项,一键跳转至原文中,回顾会变得更高效。

「通义听悟」有哪些关键技术?此次听悟上线测试的信息摘要等能力,是以通义千问大模型为基座,并融合了团队在推理、对齐和对话问答等方向的持续研究成果。「通义听悟」背后的「通义千问」,对关注 AI 领域的人来说并不陌生。从 2019 年开始,阿里就开始了大模型的研究,先后推出了被称为中文版 GPT-3 的中文大语言模型 PLUG,以及全球首个 10 万亿参数的多模态大模型 M6。「通义」是阿里达摩院 2022 年 9 月发布的大模型系列,且通过魔搭社区开源开放。基于这些研究成果,今年 4 月 7 日,阿里正式发布了自研类 ChatGPT 产品「通义千问」。在技术落地上,「通义」也在不断加速。近期,阿里云通义千问等大模型已接入钉钉斜杠「/」。此外,听悟还内置了阿里新一代工业级语音识别模型 Paraformer。Paraformer 是阿里达摩院去年 12 月发布的下一代「杀手锏」级别的语音识别基础模型,且是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升 10 倍,识别准确率在多个权威数据集上名列第一。同时,听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的「钉闪记」背后便集成了听悟。未来,全新升级后的「通义听悟」还将在夸克 APP、阿里云盘等端口提供服务。最后,公测期间,用户可领取 100 小时以上听悟免费转写时长。如果你有需要的话,不妨上手一试?参考链接:https://help.aliyun.com/product/454189.html

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
24天前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
2天前
|
人工智能 测试技术 开发者
通义发布最强开源多模态推理模型QVQ!
通义发布最强开源多模态推理模型QVQ!
66 18
|
17天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
4天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
4天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
1月前
|
人工智能 自然语言处理
ACE:阿里通义实验室推出的全能图像生成和编辑模型
ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型,基于扩散变换器,支持多模态输入和多任务处理。该模型通过长上下文条件单元(LCU)和统一条件格式,能够理解和执行自然语言指令,实现图像生成、编辑和多轮交互等复杂任务,显著提升视觉内容创作的效率和灵活性。
98 3
ACE:阿里通义实验室推出的全能图像生成和编辑模型
|
1月前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
19天前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
223 8
|
1月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
48 11
|
29天前
|
机器学习/深度学习 人工智能 安全
千问团队开源会思考的QwQ模型,这模型成精了!
QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)
千问团队开源会思考的QwQ模型,这模型成精了!