每日学术速递4.30

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Masked Frequency Modeling for Self-Supervised Visual Pre-Training(ICLR 2023)

4ed757b6874ae3aac4d616d21582e8f8.png

标题:用于自监督视觉预训练的掩蔽频率建模

作者:Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy

文章链接:https://arxiv.org/abs/2206.07706

项目代码:https://github.com/Jiahao000/MFM

27c861b92b6d49bccf0e9ee7dddc4a26.png

34923d65d9bb91e92f9abf19ab0779f0.png

ae5ab0dbef76ec96c1ae435c97db8d50.png

eb2b62a1c2a750cd7d35b0fa5dc736b2.png


摘要:

       我们提出了掩蔽频率建模 (MFM),这是一种基于频域的统一方法,用于视觉模型的自监督预训练。在本文中,我们没有将掩码标记随机插入到空间域的输入嵌入中,而是将视角转移到频域。具体来说,MFM 首先屏蔽掉输入图像的一部分频率分量,然后预测频谱上缺失的频率。我们的主要见解是,由于存在大量空间冗余,预测频域中的掩码分量更适合揭示底层图像模式,而不是预测空间域中的掩码块。我们的研究结果表明,通过正确配置掩码和预测策略,高频成分中的结构信息和低频对应物之间的低级统计信息都有助于学习良好的表示。MFM 首次证明,对于 ViT 和 CNN,即使不使用以下任何一种,一个简单的非 Siamese 框架也可以学习有意义的表示:(i)额外数据,(ii)额外模型,(iii)mask token。图像分类和语义分割的实验结果,以及几个鲁棒性基准测试表明,与最近的蒙版图像建模方法相比,MFM 具有竞争力的性能和先进的鲁棒性。此外,我们还从统一频率的角度全面研究了经典图像恢复任务对表示学习的有效性,并揭示了它们与我们的 MFM 方法的有趣关系。

Subjects: cs.LG


2.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

efa66d154ebd420f5288d80bf5bc0550.png

标题:AudioGPT:理解和生成语音、音乐、声音和说话头

作者:Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang

文章链接:https://arxiv.org/abs/2304.12995

项目代码:https://github.com/AIGC-Audio/AudioGPT

3770cbcf5eb1e29f1d15513c23219215.png

713f120249727dd326ba4d1cffa47218.png

cd268fa0bfa0e2bc96b7a292d146b7dc.png

摘要:

       大型语言模型 (LLM) 在各种领域和任务中展现出非凡的能力,挑战着我们对学习和认知的理解。尽管最近取得了成功,但目前的 LLM 无法处理复杂的音频信息或进行口头对话(如 Siri 或 Alexa)。在这项工作中,我们提出了一个名为 AudioGPT 的多模态 AI 系统,它通过 1) 基础模型来补充 LLM(即 ChatGPT),以处理复杂的音频信息并解决大量的理解和生成任务;2) 支持语音对话的输入/输出接口(ASR、TTS)。随着对评估人类意图理解和与基础模型合作的多模式 LLM 的需求不断增加,我们概述了原则和过程,并在一致性、能力和稳健性方面测试了 AudioGPT。实验结果证明了 AudioGPT 在解决 AI 任务方面的能力,包括在多轮对话中理解和生成语音、音乐、声音和说话的头部,这使人类能够前所未有地轻松创建丰富多样的音频内容。

Subjects: cs.CL


3.LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions


7d6113a923e7c25bd744d2737e50c25c.png

标题:LaMini-LM:来自大规模指令的各种提炼模型

作者:Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji

文章链接:https://arxiv.org/abs/2304.14402

项目代码:https://github.com/mbzuai-nlp/LaMini-LM

001c9f22fb9d541dffe5be8274d18086.png

886a530a22fd0d3d15402fccaa9c6d29.png

2f934f9378312c7a5db8348786a6087d.png

7f4db5737373c9cff4800a9debd242cd.png

摘要:

       具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。除了规模庞大之外,我们还设计了涵盖广泛主题的说明以确保。对我们的指令数据的彻底调查证明了它们的多样性,我们使用 gpt-3.5-turbo 为这些指令生成响应。然后,我们利用这些指令来调整大量模型,称为 LaMini-LM,大小不一,来自编码器-解码器以及仅解码器系列。我们自动(在 15 个不同的 NLP 基准测试中)和手动评估我们的模型。结果表明,我们提出的 LaMini-LM 与竞争基线相当,但尺寸却小了近 10 倍。

目录
相关文章
|
3天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
271 116
|
18天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
12天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
663 219
|
5天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
350 34
Meta SAM3开源:让图像分割,听懂你的话
|
10天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1587 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
897 61
|
7天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
295 140