通义听悟再升级,上线三大实用功能

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 通义听悟再升级,上线三大实用功能


今天,阿里云通义听悟上线了三大新功能,包括国内音视频AI领域首创的视频自动提取PPT,以及浏览器插件、钉钉和微信小程序,帮助用户在PC和移动端随时随地听懂、理解、阅读各类音视频内容,提升职场人士和学生的工作学习效率。



今年6月,阿里云首次宣布通义听悟开放公测,吸引了用户的广泛使用。此次升级,在原有实时记录、音视频文件转写、全文概要、章节速览等功能之上,新增“提取PPT”功能。该功能通过引入视觉AI算法,自动将PPT讲解视频分割为演示文稿,并对每页PPT进行要点总结,形成一份图文并茂的大纲,解决培训、网课学习等场景“求PPT难”的问题。


通义听悟还增加了浏览器插件和移动端的支持。用户开会、上网课、看直播、看视频时,Chrome和Edge浏览器插件功能可全程录制,并实时生成双语字幕,帮助用户更轻松地浏览视频内容。


浏览器插件可实时生成双语悬浮字幕


在移动端,通义听悟钉钉和微信小程序不仅支持PC端的基础功能,还可以一键转写手机和聊天记录的音视频文件,仅需一部手机即可记录、回顾和整理音视频内容。


为了让更多用户体验到这些功能,本次新功能上线期间,阿里云继续联合各大平台和社区推出定制口令码,用户根据口令码可随机抽取20h、30h、66h、88h、100h的免费转写时长。


通义听悟集成了阿里云先进的语音、语言和视觉AI技术,未来还将陆续上线适用于更多场景的新功能。


通义听悟产品及研发负责人鄢志杰表示:“继语音AI与大语言模型碰撞出火花后,我们持续将视觉AI引入通义听悟这一创新产品,围绕人们工作和学习中的音视频内容,希望通过全新的体验成为大家的AI助手。”


↓上官网输入福利口令,领取惊喜时长↓



/ END /

目录
相关文章
|
Serverless
📢大模型服务平台百炼“流程”功能下线通知
本文主要内容介绍了大模型服务平台百炼的“流程”功能将于2025年11月15日下线。自通知发布起,“流程”入口将逐步隐藏,建议用户尽快迁移至全新升级的工作流应用,支持MCP、函数计算及大模型节点编排,操作更便捷。2025年6月15日起,现存“流程”不可修改;11月15日起完全停用,智能体中需解除“流程”引用并替换为工作流。请参考相关文档完成迁移。
401 0
|
4月前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
2008 9
|
3月前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE现已正式上线,用户可免费下载使用。作为AI原生开发环境工具,它深度适配千问3大模型,集成通义灵码插件能力,支持编程智能体、行间建议预测和行间会话等功能。其核心亮点包括:支持最强开源模型千问3,具备MCP工具调用能力;开箱即用的智能编码助手;自带编程智能体模式,端到端完成编码任务;长期记忆、NES行间预测及Inline Chat功能,大幅提升编程效率。目前,通义灵码插件下载量超1500万,生成代码超30亿行,广泛应用于企业开发场景。
AI IDE正式上线!通义灵码开箱即用
|
3月前
|
SQL 人工智能 关系型数据库
尝鲜体验 | 通义灵码近期新增了哪些功能?用户快速上手指南来了!
通义灵码近期新增了哪些功能?用户快速上手指南来了!
111 10
|
3月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
130 1
|
4月前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
721 13
|
4月前
|
缓存 人工智能 自然语言处理
通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎
本文介绍了基于通义灵码2.5 AI编码助手开发的Wiki多功能搜索引擎系统。该系统采用Python技术栈,实现了多数据源统一搜索、异步并行查询和智能缓存等功能。通过AI辅助完成了从需求分析、架构设计到代码生成的全流程开发,显著提升了开发效率。系统采用模块化分层架构,包含数据源抽象层、搜索管理层和缓存层等核心组件,支持自然语言交互和个性化代码推荐。这一实践展示了AI与开发者深度协作的智能化开发新模式。
|
4月前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
222 10