通义大模型使用指南之通义听悟

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 本文介绍了阿里云通义平台的注册和使用,主要包括两个部分:注册和功能介绍。用户可以通过访问网址 <https://tongyi.aliyun.com/> 进行注册。在功能介绍中,重点讲解了通义听悟的功能,它提供实时语音转文字、音视频文件转文字、智能总结和中英互译服务。用户可以体验实时录音并标记重点、问题和代办事项,方便会议记录和整理。此外,通义听悟还支持上传音视频文件转写和播客链接转写,以及浏览器插件用于处理网页、手机和微信上的语音内容。

一、注册

我们可以打开以下网站,用手机号注册一个账号即可。

https://tongyi.aliyun.com/

二、使用介绍

如图,我们可以看到有三个大项功能,通义千问、通义万相、通义听悟。下来我们体验一下通义听悟的功能。

1、通义听悟

1、1基本功能

当我们点击上面的通义听悟功能的时候,会出现下面的界面,可以从界面上看到它的主要功能:实时语音转文字,音视频文件转文字,智能总结、中英互译

当我点击立即体验功能时,跳转到如下界面,我们先来体验一下开启实施记录的功能

在界面上我们可以看到有在搜索、筛选、翻译、专用词汇管理、替换词汇

当我开始录音的时候,可以看到下面直接生成了我语音的文字版,在每个文字版内容上面有四个按钮

分别是标记为重点、标记为问题、标记为代办、取消标记的功能。

而且在内容的右侧有一个标准版的文字编辑器界面,方便我们选中其中的文字进行编辑。当我终止和保持,点击下面的终止和保持按钮就行。在我们保持后,在界面上点击重新进入这个文件

会出现如下界面

在上面这个界面我们可以看到主要有这几个功能:全文概要、章节速览、发言总结、要点回顾。在这几个功能中,觉得除去全文概要其他几个功能都差不多,主要是为了在里面列出语音翻译的文字,结合标记为重点、标记为问题、标记为代办、取消标记、一键摘取功能让会议快速生成为一个总结性、有重点有代办有问题的文档,便于跟踪会议结论。

在文件的旁边还有一些其他功能:导出、分析、收藏、移动和删除

1、2其他功能

1、2、1上传音视频

我们点击上传音视频按钮,出现如下界面,按照要求选择一个文件,点击 开始转写,文件就开始转写了,等转写完成就会出现在自己的文件下了,我们可以点击进去看生成的内容,就和上面的基本功能一致了。

1、2、2播客链接转写

关于这块的功能,官方的简介以及写的十分清楚了,我就不再赘述了,但是现在支持的播客列表确实比较少。详细介绍见如何将播客链接转文字?https://tingwu.aliyun.com/helpcenter/1df150

1、2、3浏览器插件

当我们需要处理网页中、手机上、微信上的语音时,我们可以采用如下插件来实现,下面我来演示下edge插件是怎样用的

当我们点击Edge插件时,出现如下界面,安装好之后,

我们打开一个在播放视频的网页,在浏览器中调用此插件

则此时在网页上就会出现插件的录音转文字功能,等录制好之后,这个文件就会出现在自己的列表之下了。

以上就是本期介绍的通义听悟的全部功能了。

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 知识图谱
从“看图说话”到“脑补世界”:多模态大模型的进化之路
从“看图说话”到“脑补世界”:多模态大模型的进化之路
266 63
|
1月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
283 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
624 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
253 1
|
2月前
|
人工智能 运维 算法
通义灵码软件工程大模型获顶会最高奖!
近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文
|
3月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
724 0
|
22天前
|
机器学习/深度学习 编解码 人工智能
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
418 7