备案控制台

开发者社区开发与运维文章正文

72B、1.8B、Audio模型

2023-12-07 382

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 72B和1.8B是两个不同的模型,具体区别如下:- 72B是一个相对较大的模型,拥有72个亿个参数,而1.8B只有180亿个参数。

72B和1.8B是两个不同的模型,具体区别如下:

72B是一个相对较大的模型,拥有72个亿个参数,而1.8B只有180亿个参数。
72B是一个多模态模型,可以处理文本、图像、语音等多种模态的数据,而1.8B是一个纯文本模型,只能处理文本数据。
72B和1.8B使用的预训练目标也不同,72B使用的是CLUE(Contrastive Learning of Unsupervised Embeddings)预训练目标,而1.8B使用的是BERT(Bidirectional Encoder Representations from Transformers)预训练目标。

Audio模型是一种专门用于处理音频数据的模型,与72B和1.8B不同,它不是一个多模态模型,也不是一个纯文本模型。Audio模型使用的预训练目标通常是Mel谱的线性预测或者MSE(Mean Squared Error)损失函数。
下面是几个demo的对比:

72B模型:https: //hfl.github.io/demo/72B/

示例:输入“一只猫”,输出猫的图片、文本和音频的相关信息。
特点:处理多种模态的数据,生成的结果比较丰富。

1.8B模型:https://hfl.github.io/demo/1.8B/

示例:输入“猫”,输出与“猫”相关的文章、图片和音频。
特点:纯文本模型,生成的结果比较简洁。

Audio模型:https: //hfl.github.io/demo/Audio/

示例:输入音频文件,输出音频文件的Mel谱和线性预测结果。
特点:专门用于处理音频数据,生成的结果比较专业。

总的来说,72B和1.8B模型更适合于处理多模态数据,而生成的结果比较丰富;Audio模型更适合于处理音频数据,而生成的结果比较专业。

文章标签：

JavaScript

C++

C语言

数据处理

算精通

目录

相关文章

米果粒

|

3月前

video和audio的事件

【10月更文挑战第5天】video和audio的事件。

米果粒

40 4 4

LDG_AGI

|

5月前

|

机器学习/深度学习人工智能自然语言处理

【人工智能】Transformers之Pipeline（三）：文本转音频（text-to-audio/text-to-speech）

【人工智能】Transformers之Pipeline（三）：文本转音频（text-to-audio/text-to-speech）

LDG_AGI

78 1 1

【人工智能】Transformers之Pipeline（三）：文本转音频（text-to-audio/text-to-speech）

LDG_AGI

|

5月前

|

机器学习/深度学习人工智能数据挖掘

【人工智能】Transformers之Pipeline（一）：音频分类（audio-classification）

【人工智能】Transformers之Pipeline（一）：音频分类（audio-classification）

LDG_AGI

141 0 0

Deephub

|

机器学习/深度学习自然语言处理数据可视化

从视频到音频：使用VIT进行音频分类

在本文中，我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。

Deephub

289 0 0

从视频到音频：使用VIT进行音频分类

CoderZ1010

|

人工智能算法测试技术

Unity & FACEGOOD Audio2Face 通过音频驱动面部BlendShape

Unity & FACEGOOD Audio2Face 通过音频驱动面部BlendShape

CoderZ1010

2138 0 1

Unity & FACEGOOD Audio2Face 通过音频驱动面部BlendShape

公开课小能手

|

数据处理机器学习/深度学习算法

语音顶会Interspeech 论文解读｜Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

Interspeech是世界上规模最大，最全面的顶级语音领域会议，本文为Zhiying Huang, Shiliang Zhang, Ming Lei的入选论文

公开课小能手

1547 0 0

语音顶会Interspeech 论文解读｜Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

double2li

|

编解码 API C语言

音频压缩(Speex使用&Opus简介)--转

博客地址：http://blog.csdn.net/kevindgk GitHub地址：https://github.com/KevinDGK/MyAudioDemo 一简介二局域网语音配置三Speex 1 简介 2 技术特点 3 开发-语音压缩 4 ...

double2li

4354 0 1

玄学酱

|

JavaScript 前端开发

第 1 章 Audio

玄学酱

1142 0 0

玄学酱

|

JavaScript 前端开发

第 2 章 Video

玄学酱

911 0 0

玄学酱

第 182 章 Audio

玄学酱

761 0 0

热门文章

最新文章

ToC和ToB有啥区别

多中心容灾实践：如何实现真正的异地多活？

时间序列预测：CNN+LSTM+Attention模型实战

DSP_代码笔记（基于TMS320X281x）

Confluence 6 那些文件需要备份

区块链技术将占据全球金融系统核心地位

一个有味道的函数

ceph启动脚本

[CLR via C#]7. 常量和字段

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

《docker基础篇：4.Docker镜像》包括是什么、分层的镜像、UnionFS（联合文件系统）、docker镜像的加载原理、为什么docker镜像要采用这种分层结构呢、docker镜像commit

《鸿蒙安全沙箱机制——人工智能应用的安全护盾》

相关电子书

更多

Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

开通oss服务