ICML 2024：AI也会刷抖音！清华领衔发布短视频全模态理解新模型-阿里云开发者社区

ICML 2024：AI也会刷抖音！清华领衔发布短视频全模态理解新模型

2024-08-20 145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型，专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器，能直接处理多样音频输入，在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力，如翻译未训练语言和基于语音的问答。通过少样本激活微调，可进一步发掘其跨模态潜能。尽管如此，模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]

在人工智能（AI）领域，全模态理解一直是一个备受关注的研究方向。最近，一篇论文在ICML 2024上引起了广泛关注，该论文由清华大学领衔发布，提出了一种名为SALMONN（Speech Audio Language Music Open Neural Network）的新型模型，旨在实现对短视频的全模态理解。

SALMONN是一种多模态模型，它通过整合预训练的文本大型语言模型（LLM）、语音和音频编码器，构建了一个能够直接处理和理解一般音频输入的统一模型。这种创新的设计使得SALMONN在多个语音和音频任务上表现出色，包括自动语音识别和翻译、基于听觉信息的问答、情绪识别、说话人验证以及音乐和音频字幕等。

除了在训练任务上的出色表现，SALMONN还展示了一些在训练过程中未出现过的新兴能力。例如，它可以将语音翻译成未经训练的语言，进行基于语音的槽填充，执行基于口头查询的问答，以及基于音频的故事讲述和语音音频联合推理等。这些新兴能力的出现，进一步证明了SALMONN在全模态理解方面的潜力。

为了探索这些新兴能力，研究人员提出了一种新颖的少样本激活微调方法。这种方法可以激活模型中的跨模态新兴能力，从而进一步扩展了SALMONN的应用范围。

SALMONN的出现被认为是AI领域迈向具有通用听觉能力的一步。作为首个此类模型，它为研究人员提供了一个强大的工具，可以用于探索和开发更先进的全模态理解系统。

然而，尽管SALMONN在全模态理解方面取得了显著的进展，但它仍然面临一些挑战。首先，模型的复杂性可能导致训练和推理过程中的计算成本较高。其次，模型的泛化能力仍然有待提高，特别是在处理未见过的模态组合时。

为了解决这些挑战，未来的研究可以集中在以下几个方面。首先，研究人员可以探索更高效的模型架构和训练方法，以降低计算成本并提高模型的泛化能力。其次，他们可以研究如何更好地整合不同模态的信息，以实现更准确和全面的全模态理解。最后，研究人员可以探索将SALMONN应用于实际场景的方法，例如视频内容理解、人机交互等，以进一步验证其有效性和实用性。

SALMONN论文链接：https://arxiv.org/abs/2310.13289

ICML 2024：AI也会刷抖音！清华领衔发布短视频全模态理解新模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

ICML 2024：AI也会刷抖音！清华领衔发布短视频全模态理解新模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景