通义听悟--一个懂你的AI助理

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 介绍什么是通义听悟以及通义听悟的功能体验

通义听悟

在体验通义听悟之前,我们首先得知道什么是通义听悟?有什么应用场景?

通义听悟简单来说就是你的工作学习AI助理,通义听悟依托大模型,为每一个人提供全新的音视频体验。可以应用在会议、学习、访谈、培训等场景下实现会议实时语音转写、海量文件批量转写、中英互译实时翻译、快速标记高亮重点以及整理笔记导出记录等。可以说有了通义听悟,就等于有了一个AI助理,会议记录,学习记录等毫无违和感。下面来体验一下吧

音频转文字

打开通义听悟官网首页,首页地址:https://tingwu.aliyun.com/home

image.png

我们先来体验一下【上传音视频】转文字的操作吧,首先我上传一段个人手机通话的录音文件

本地音视频转文字

点击【上传音视频】

image.png

这里我选择【上传本地音视频文件】

image.png

这个通话录音是银行工作人员和我个人的通话,因此我选择【区分发言人】 【2认对话】,点击【开始转写】,首页右上角可以看到具体的操作进度

image.png

等待转写完成之后点击左侧菜单【我的记录】找到最新转写的记录

image.png

可以看到具体的转写内容

20230608_173240 00_00_00-00_00_30.gif

在动图中可以看到银行客服人员和我的详细对话,整个语音转写文字的过程执行很快,10s就结束了,无需等待时间,对于整体对话的转写准确度也有97%以上,只有部分地方名词的转写有所差别,这个对于不同人的不同口音版普通话,AI转写确实也会有不及的地方,个人认可本次语音转写文字的精确度。另外我们再来看一下这个地方

image.png

在通话录音转写成功之后,通义听悟会自动提炼本次语音转写内容关键词、全文概要、章节速览等,对于通义听悟自动提取的功能,精确度100%,关键词很准确,全文概要也完美总结了本次通话内容的核心,很不错的功能,可以说将近两分钟的通话内容,只需要2秒就可以通过全文概要完美提炼到通话要点,这样的AI助理真好,哈哈。

云盘音视频转文字

对于通义听悟【上传音视频】转文字功能除了可以上传本地音视频文件转文字以外,还可以通过绑定阿里云盘,直接选择阿里云盘中的音视频文件转文字,具体的操作大家有需要的可以直接参考官方文档操作即可,文档地址:如何将阿里云盘文件转文字?

实时记录

可以说通义听悟上传音视频转文字的功能很不错,那么更不错的功能还没体验呢,那就是【实时记录】功能,可以说不管大公司、小公司、国企、私企,日常的会议都是必不可少的,那么会议记录以及会议核心内容的提取往往都需要耗费会议记录人员(比如助理)很长的时间,并且还不一定是大家想要的内容,那么通义听悟的实时记录功能将一举拿下这个会议室的痛点。下面我们先来体验吧

点击【开启实时记录】

image.png

这里由于我的是台式机,所以没有安装音频录入设备,不太方便体验,那么我想是否可以通过手机端尝试【开始实时记录】呢,打开手机浏览器登录账号密码,点击【实时记录】

微信图片_20230608180119.jpg

可以看到实时记录功能手机浏览器无法打开,那本次实时记录的功能就下次再体验吧。不过根据对于音视频文件的文字转写结果来看,个人对于实时记录语音转写的精准度以及转写效率还是很有信心的。下面我们再来看看通义听悟对于转写内容的细节操作吧。

通义听悟进阶

上面我们看到上传音视频文件转文字的内容中有一点不准确的地方,通义听悟提供了一键替换功能,比如

image.png

比如点击【通义听悟实验室】开启【问题回顾】,那么通义听悟会自动把通话记录中关于问题的内容高亮展示,方便查找

image.png

比如开通【中英翻译】可以将通话记录中的中文翻译成英文

image.png

最后可以将处理好的文本内容导出成自己需要的格式,这样整个内容整理的工作就大功告成了。

image.png

关于通义听悟当然远不止我体验的功能,还有很多有趣且实用的功能,感兴趣的可以自己探索或者去官方文档查阅哦,文档地址:功能学堂

体验感受

对于这次通义听悟的体验整体上很轻松没有很大压力,首先对于这么一款产品是比较感兴趣的,因为个人也是记录过会议记录的人,深知会议结束之后通过会议录音整理会议记录,提取会议核心内容的耗时和辛苦,所以对于这一款产品的体验就会很期待。整个通义听悟的首页设计很简单,功能点操作也很容易找到,如果真的遇到不明白的地方,官方文档也解释的很明白,并且官方文档的格式设计的也很有趣味,让人愿意去阅读,而不是说那种一堆文字堆积的文档,枯燥乏味。

功能建议

对于已经体验的功能,比如【上传音视频】转文字功能还是很满意的,文字识别很准确,很满足自己的期待。只是对于【实时记录】功能,由于本人没有笔记本,台式机又没有音频输入,手机端通义听悟又不支持,所以非常遗憾没有再好好体验感受一把,说到这里,希望通义听悟技术团队后期可以提供一下手机端的实时记录功能,比如开发钉钉小程序或者在现有的阿里云APP中增加通义听悟场景入口,毕竟手机是每个人都有的,那么开会时通过手机【实时记录】转写会议内容就会显得很便捷了,也就是说开会时只需要手机点击【实时记录】,开会结束后再到电脑端通义听悟页面找到已经转写完成的记录,人工核验一遍,只需几分钟就可以整理出一份会议记录、会议核心内容的文档,解决了过去几小时的工作量,真的是助理界的AI助理,期待ing...

产品联动

其实通过通义听悟的适用场景会议、学习、访谈、培训等不难找到通义听悟的联动产品,比如作为教育培训行业,有的课程内容可能只有视频而由于人力成本的问题没有为视频适配文字字幕,那么这个时候通义听悟就可以一键接入实现视频转文字,方便广大学员提高学习效率,同时也节约了企业为视频添加字幕而进行的人力成本投入。当然,访谈节目字幕也是同样的道理。另外对于CRM产品,日常客服通话语音的管理,以及通话检测的人工投入是否也可以接入通义听悟实现通话语音的实时记录转写,方便CRM管理人员及时发现客服问题,为公司挽回损失呢。总之可以联动的产品还有很多,大家一起去发掘吧。最后给通义听悟团队一个赞,产品不错,转写效果很棒!


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
3
3
1
1640
分享
相关文章
手把手带你上手通义灵码 2.0,体验 AI 程序员加持下的智能编码助手
手把手带你上手通义灵码 2.0,体验 AI 程序员加持下的智能编码助手
通义灵码2.0 - AI 程序员: AI 编程新时代的卓越助力
通义灵码是一款强大的AI编程助手,尤其在单元测试自动生成方面表现出色。它通过简化操作流程,快速生成覆盖广泛、质量较高的测试用例,支持直接编译与运行,显著提升开发效率。相比人工编写,通义灵码能大幅缩短时间成本,并更全面地覆盖边界和异常情况,但特定业务逻辑仍需人工补充。作为开发者的好帮手,它助力高效完成高质量单元测试,推动软件开发迈向新台阶。
128 83
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
22045 6
通义灵码 AI 程序员-全平台AI程序员插件
人工智能正在深度融入开发流程,阿里云通义灵码AI程序员全面上线,支持VS Code与JetBrains IDEs,是国内首个真正落地的AI程序员工具。它不仅能生成代码、续写功能,还支持跨语言编程和图片生成代码。相较1.0版本,新增多项功能,模型更丰富,生成速度更快。快来体验未来开发的魅力!链接附上,欢迎探索。
44 7
通义灵码 2.0 评测:AI 赋能编程,开启高效研发新旅程
通义灵码2.0通过AI赋能编程,显著提升开发效率与代码质量。安装便捷,支持自然语言描述需求自动生成高质量代码框架及注释,大幅简化新功能开发流程。其单元测试Agent能快速生成全面测试用例,覆盖更多边界情况。相比1.0版本,2.0在智能问答和代码生成速度上均有显著提升,为开发者带来高效研发新体验。
90 6
用户说 | 零基础用通义灵码 AI 程序员开发个人笔记网站
通义灵码是一款基于通义大模型的智能编码辅助工具,支持自然语言生成代码、单元测试生成、代码注释生成等功能,兼容多种主流IDE和编程语言。对于零基础用户,只需通过自然语言描述需求,通义灵码即可自动生成代码,帮助快速开发个人笔记网站,极大简化开发流程,提升效率。
通义灵码 AI 程序员与开发者结伴编程,全栈开发电商工程的前后端功能需求
当你又收到了项目新需求的时候,可以尝试下载并使用通义灵码,让通义灵码 AI 程序员跟你一起结伴编程,它具备多文件代码修改和工具使用的能力,可以与你结伴协同完成编码任务,如需求实现、缺陷修复、单元测试生成、批量代码修改等,成为你的左膀右臂。下面我们就跟AI程序员结伴编程完成前后端需求的开发吧!
59 0
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
1022 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
138 2
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!