阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪

阿里云 AI 神器通义听悟上线了,宣称是身边的 AI 学习助手。这名字听着挺玄乎的,通义听悟到底是个什么玩意?具体有什么用呢?下面我们一起来看看它有什么神器的地方。

通义听悟介绍

通义听悟是接入了阿里大模型的聚焦音视频内容的工作学习AI助手。基础的功能包含以下几点:

  • 实时语音转写,生成智能记录
  • 文件转写,音视频文件快速上传转成文字
  • 实时翻译,大幅提升跨语言写作效率
  • 快速标记内容,整理内容重点信息,智能全文概要

针对一些细分场景,听悟还设置了不少「宝藏功能」:打开 Chrome 插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的「开会替身」,在静音情况下入会 AI 可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR 等群体整理访谈更高效。
通义听悟 Chrome 插件将在近期对所有用户开放下载

具体到玩法,正如通义听悟的「自我介绍」中所说:

  • 如果你是一名职场人士,通义听悟可以帮你记录和回顾你的每一场会议;

  • 如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;

  • 如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;

  • 如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的内容。

接下来,让我们看看通义听悟的本领如何。

实测通义听悟

学啥新东西第一个想到的就是去 B 站看看有没有免费课程。

有时候没空看视频,就想能不能把视频中的对话转成文字,这样就不需要自己手动做笔记了,每次回顾只看文字稿就行了。

如何把视频中 UP 主说的话转成文字? 之前一直没找到好使的工具,用了通义听悟,确实不错。

在「通义听悟」上传了一个 30 min 的老蒋解读 B 站商业化的视频,大该用了2 分钟就完成了转文字。

让我震惊的是,不是单纯的视频对话转文字, AI 自动帮你做了总结、分了段落 ...

自动生成的全文概要

自动生成的章节速览

自动生成的对话文字

说实话,用到视频转文字、自动总结功能,对平时自学的小伙伴确实是一个不错的助手,更多的功能,等着大家一起去发现,感兴趣的去申请内测吧!
通义听悟: https://tingwu.aliyun.com/u/6WXvEJc0Jc00JJ30

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
607 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
3月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 上线,第一时间测评体验
通义灵码 AI IDE 重磅上线,开启智能编程新纪元!无需插件,开箱即用,依托通义千问大模型,实现高效、智能的编程体验。支持 MCP 工具链,可快速调用多种服务(如12306余票查询、高德地图标注等),大幅提升开发效率。结合 Qwen3 强大的 Agent 能力,开发者可通过自然语言快速构建功能,如智能选票系统、地图可视化页面等。行间代码预测、AI 规则定制、记忆能力等功能,让 AI 更懂你的编码习惯。Lingma IDE 不仅是工具,更是开发者身边的智能助手,助力 AI 编程落地实践。立即下载体验,感受未来编程的魅力!
606 17
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
240 1
|
2月前
|
人工智能 运维 算法
通义灵码软件工程大模型获顶会最高奖!
近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文
|
3月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
711 0
|
1月前
|
人机交互 API 开发工具
基于通义多模态大模型的实时音视频交互
Qwen-Omni是通义千问系列的全新多模态大模型,支持文本、图像、音频和视频的输入,并输出文本和音频。Omni-Realtime服务针对实时交互场景优化,提供低延迟的人机交互体验。
326 23
|
2月前
|
人工智能 安全 Serverless
企业AI落地实践(三):使用 AI 网关解决 AI Agent 与 LLM 的交互挑战
无论是编码方式构建 AI Agent,还是可视化流程式构建 AI Agent,一旦脱离了 LLM,就不存在 AI 一说了。所以 AI Agent 如何合理地、生产级地与 LLM 结合,将是我们今天文章的核心内容。
421 17
|
2月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
355 1