通义大模型使用指南之通义听悟

简介: 本文介绍了阿里云通义平台的注册和使用,主要包括两个部分:注册和功能介绍。用户可以通过访问网址 <https://tongyi.aliyun.com/> 进行注册。在功能介绍中,重点讲解了通义听悟的功能,它提供实时语音转文字、音视频文件转文字、智能总结和中英互译服务。用户可以体验实时录音并标记重点、问题和代办事项,方便会议记录和整理。此外,通义听悟还支持上传音视频文件转写和播客链接转写,以及浏览器插件用于处理网页、手机和微信上的语音内容。

一、注册

我们可以打开以下网站,用手机号注册一个账号即可。

https://tongyi.aliyun.com/

二、使用介绍

如图,我们可以看到有三个大项功能,通义千问、通义万相、通义听悟。下来我们体验一下通义听悟的功能。

1、通义听悟

1、1基本功能

当我们点击上面的通义听悟功能的时候,会出现下面的界面,可以从界面上看到它的主要功能:实时语音转文字,音视频文件转文字,智能总结、中英互译

当我点击立即体验功能时,跳转到如下界面,我们先来体验一下开启实施记录的功能

在界面上我们可以看到有在搜索、筛选、翻译、专用词汇管理、替换词汇

当我开始录音的时候,可以看到下面直接生成了我语音的文字版,在每个文字版内容上面有四个按钮

分别是标记为重点、标记为问题、标记为代办、取消标记的功能。

而且在内容的右侧有一个标准版的文字编辑器界面,方便我们选中其中的文字进行编辑。当我终止和保持,点击下面的终止和保持按钮就行。在我们保持后,在界面上点击重新进入这个文件

会出现如下界面

在上面这个界面我们可以看到主要有这几个功能:全文概要、章节速览、发言总结、要点回顾。在这几个功能中,觉得除去全文概要其他几个功能都差不多,主要是为了在里面列出语音翻译的文字,结合标记为重点、标记为问题、标记为代办、取消标记、一键摘取功能让会议快速生成为一个总结性、有重点有代办有问题的文档,便于跟踪会议结论。

在文件的旁边还有一些其他功能:导出、分析、收藏、移动和删除

1、2其他功能

1、2、1上传音视频

我们点击上传音视频按钮,出现如下界面,按照要求选择一个文件,点击 开始转写,文件就开始转写了,等转写完成就会出现在自己的文件下了,我们可以点击进去看生成的内容,就和上面的基本功能一致了。

1、2、2播客链接转写

关于这块的功能,官方的简介以及写的十分清楚了,我就不再赘述了,但是现在支持的播客列表确实比较少。详细介绍见如何将播客链接转文字?https://tingwu.aliyun.com/helpcenter/1df150

1、2、3浏览器插件

当我们需要处理网页中、手机上、微信上的语音时,我们可以采用如下插件来实现,下面我来演示下edge插件是怎样用的

当我们点击Edge插件时,出现如下界面,安装好之后,

我们打开一个在播放视频的网页,在浏览器中调用此插件

则此时在网页上就会出现插件的录音转文字功能,等录制好之后,这个文件就会出现在自己的列表之下了。

以上就是本期介绍的通义听悟的全部功能了。

目录
相关文章
|
5月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
5月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
478 121
|
5月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
322 113
|
5月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
375 114
|
5月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
496 117
|
7月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
751 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
904 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
机器学习/深度学习 编解码 人工智能
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
1883 7

热门文章

最新文章