通义听悟--一个懂你的AI助理

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 介绍什么是通义听悟以及通义听悟的功能体验

通义听悟

在体验通义听悟之前,我们首先得知道什么是通义听悟?有什么应用场景?

通义听悟简单来说就是你的工作学习AI助理,通义听悟依托大模型,为每一个人提供全新的音视频体验。可以应用在会议、学习、访谈、培训等场景下实现会议实时语音转写、海量文件批量转写、中英互译实时翻译、快速标记高亮重点以及整理笔记导出记录等。可以说有了通义听悟,就等于有了一个AI助理,会议记录,学习记录等毫无违和感。下面来体验一下吧

音频转文字

打开通义听悟官网首页,首页地址:https://tingwu.aliyun.com/home

image.png

我们先来体验一下【上传音视频】转文字的操作吧,首先我上传一段个人手机通话的录音文件

本地音视频转文字

点击【上传音视频】

image.png

这里我选择【上传本地音视频文件】

image.png

这个通话录音是银行工作人员和我个人的通话,因此我选择【区分发言人】 【2认对话】,点击【开始转写】,首页右上角可以看到具体的操作进度

image.png

等待转写完成之后点击左侧菜单【我的记录】找到最新转写的记录

image.png

可以看到具体的转写内容

20230608_173240 00_00_00-00_00_30.gif

在动图中可以看到银行客服人员和我的详细对话,整个语音转写文字的过程执行很快,10s就结束了,无需等待时间,对于整体对话的转写准确度也有97%以上,只有部分地方名词的转写有所差别,这个对于不同人的不同口音版普通话,AI转写确实也会有不及的地方,个人认可本次语音转写文字的精确度。另外我们再来看一下这个地方

image.png

在通话录音转写成功之后,通义听悟会自动提炼本次语音转写内容关键词、全文概要、章节速览等,对于通义听悟自动提取的功能,精确度100%,关键词很准确,全文概要也完美总结了本次通话内容的核心,很不错的功能,可以说将近两分钟的通话内容,只需要2秒就可以通过全文概要完美提炼到通话要点,这样的AI助理真好,哈哈。

云盘音视频转文字

对于通义听悟【上传音视频】转文字功能除了可以上传本地音视频文件转文字以外,还可以通过绑定阿里云盘,直接选择阿里云盘中的音视频文件转文字,具体的操作大家有需要的可以直接参考官方文档操作即可,文档地址:如何将阿里云盘文件转文字?

实时记录

可以说通义听悟上传音视频转文字的功能很不错,那么更不错的功能还没体验呢,那就是【实时记录】功能,可以说不管大公司、小公司、国企、私企,日常的会议都是必不可少的,那么会议记录以及会议核心内容的提取往往都需要耗费会议记录人员(比如助理)很长的时间,并且还不一定是大家想要的内容,那么通义听悟的实时记录功能将一举拿下这个会议室的痛点。下面我们先来体验吧

点击【开启实时记录】

image.png

这里由于我的是台式机,所以没有安装音频录入设备,不太方便体验,那么我想是否可以通过手机端尝试【开始实时记录】呢,打开手机浏览器登录账号密码,点击【实时记录】

微信图片_20230608180119.jpg

可以看到实时记录功能手机浏览器无法打开,那本次实时记录的功能就下次再体验吧。不过根据对于音视频文件的文字转写结果来看,个人对于实时记录语音转写的精准度以及转写效率还是很有信心的。下面我们再来看看通义听悟对于转写内容的细节操作吧。

通义听悟进阶

上面我们看到上传音视频文件转文字的内容中有一点不准确的地方,通义听悟提供了一键替换功能,比如

image.png

比如点击【通义听悟实验室】开启【问题回顾】,那么通义听悟会自动把通话记录中关于问题的内容高亮展示,方便查找

image.png

比如开通【中英翻译】可以将通话记录中的中文翻译成英文

image.png

最后可以将处理好的文本内容导出成自己需要的格式,这样整个内容整理的工作就大功告成了。

image.png

关于通义听悟当然远不止我体验的功能,还有很多有趣且实用的功能,感兴趣的可以自己探索或者去官方文档查阅哦,文档地址:功能学堂

体验感受

对于这次通义听悟的体验整体上很轻松没有很大压力,首先对于这么一款产品是比较感兴趣的,因为个人也是记录过会议记录的人,深知会议结束之后通过会议录音整理会议记录,提取会议核心内容的耗时和辛苦,所以对于这一款产品的体验就会很期待。整个通义听悟的首页设计很简单,功能点操作也很容易找到,如果真的遇到不明白的地方,官方文档也解释的很明白,并且官方文档的格式设计的也很有趣味,让人愿意去阅读,而不是说那种一堆文字堆积的文档,枯燥乏味。

功能建议

对于已经体验的功能,比如【上传音视频】转文字功能还是很满意的,文字识别很准确,很满足自己的期待。只是对于【实时记录】功能,由于本人没有笔记本,台式机又没有音频输入,手机端通义听悟又不支持,所以非常遗憾没有再好好体验感受一把,说到这里,希望通义听悟技术团队后期可以提供一下手机端的实时记录功能,比如开发钉钉小程序或者在现有的阿里云APP中增加通义听悟场景入口,毕竟手机是每个人都有的,那么开会时通过手机【实时记录】转写会议内容就会显得很便捷了,也就是说开会时只需要手机点击【实时记录】,开会结束后再到电脑端通义听悟页面找到已经转写完成的记录,人工核验一遍,只需几分钟就可以整理出一份会议记录、会议核心内容的文档,解决了过去几小时的工作量,真的是助理界的AI助理,期待ing...

产品联动

其实通过通义听悟的适用场景会议、学习、访谈、培训等不难找到通义听悟的联动产品,比如作为教育培训行业,有的课程内容可能只有视频而由于人力成本的问题没有为视频适配文字字幕,那么这个时候通义听悟就可以一键接入实现视频转文字,方便广大学员提高学习效率,同时也节约了企业为视频添加字幕而进行的人力成本投入。当然,访谈节目字幕也是同样的道理。另外对于CRM产品,日常客服通话语音的管理,以及通话检测的人工投入是否也可以接入通义听悟实现通话语音的实时记录转写,方便CRM管理人员及时发现客服问题,为公司挽回损失呢。总之可以联动的产品还有很多,大家一起去发掘吧。最后给通义听悟团队一个赞,产品不错,转写效果很棒!


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11天前
|
机器学习/深度学习 存储 人工智能
【通义】AI视界|名导詹姆斯·卡梅隆也投入AI?将加入 Stability AI董事会
本文精选了24小时内的重要科技新闻,涵盖OpenAI首席执行官阿尔特曼预言“智能时代”来临、特斯拉推出“真智能召唤”功能、Anthropic寻求新一轮融资及Claude3.5Opus即将发布、OpenAI为付费客户提供ChatGPT高级语音模式,以及名导詹姆斯·卡梅隆加入Stability AI董事会等内容。更多详情,请访问【通义】官网体验。
|
9天前
|
人工智能 搜索推荐 vr&ar
【通义】AI视界|美国司法部AI新规:AI犯错,企业承担
本文介绍了最新科技动态,包括Sora视频模型即将迎来重大升级,提升生成速度和质量;Meta发布十年秘密研发的Orion AR眼镜,展现未来计算平台新形态;Runway推出电影扶持计划,资助500万美元支持电影人;Notion AI全新发布,整合多项功能提高生产力;美国司法部发布AI新规,明确企业需对其AI系统的违法行为负责。更多内容,请访问通义官网体验。
|
10天前
|
人工智能 数据中心 芯片
【通义】AI视界|英特尔推出新一代AI芯片挑战英伟达
今日科技热点包括:OpenAI CTO 米亚·穆拉蒂宣布离职,Meta发布多功能Llama 3.2语言模型,扎克伯格因Meta的人工智能策略使个人资产突破2000亿美元,星纪魅族展示AI生态新品如Lucky 08 AI手机及智能穿戴设备,以及英特尔发布Xeon 6 CPU和Gaudi 3 AI加速器挑战英伟达市场地位。这些动态展现了人工智能领域快速发展的趋势及其对科技巨头的影响。
|
13天前
|
人工智能 搜索推荐 安全
【通义】AI视界|苹果和谷歌受罚,欧盟监管部门“连斩”美国科技巨头。
苹果前设计官乔尼·艾夫确认正与OpenAI合作开发AI硬件,结合其设计经验与OpenAI技术,预期将推出革新智能设备。同时,苹果和谷歌因税务与垄断问题遭欧盟处罚,显示欧盟加强监管科技巨头。此外,新版Siri将在AI加持下于明年推出,提供更流畅的交互体验。微软则与上海医疗机构合作,运用AI辅助阿尔茨海默症治疗。最后,三哩岛核电站重启以满足微软数据中心的电力需求。
|
22天前
|
人工智能 自然语言处理 vr&ar
【通义】AI视界|“AI教母”李飞飞创业公司World Labs获2.3亿美元融资!
本文介绍了最新的科技动态,包括谷歌推出的DataGemma模型,通过真实世界统计数据减少模型幻觉;美国科技巨头与拜登团队会面讨论AI基础设施需求;Midjourney 7.0版本即将发布,引入3D系统提供沉浸式体验;李飞飞的World Labs获2.3亿美元融资,开发大型世界模型;苹果iPhone 16全系配备8GB内存,支持AI功能。更多内容请访问通义官网体验。
|
26天前
|
人工智能 自然语言处理 安全
【通义】AI视界|2分钟看完苹果发布会:iPhone16 5999元起售,全系支持苹果AI
本文精选了过去24小时内的重要科技新闻,包括苹果发布iPhone 16、Sora模型发布时间未定、快手可灵AI发布导演共创计划、高盛对ChatGPT流量下滑的误判以及vivo即将发布蓝心大模型。文章详细介绍了各新闻的关键信息和背景,帮助读者快速了解最新动态。点击链接访问通义官网,体验更多功能。
|
23天前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
24天前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。
|
25天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
29天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
下一篇
无影云桌面