7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型

简介: 7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型


本周论文包括 Meta 发布「分割一切」AI 模型;国内 20 余位研究者联合撰写大型语言模型综述等。


目录


  1. Segment Anything
  2. Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning
  3. A Survey of Large Language Models
  4. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
  5. RPTQ: Reorder-based Post-training Quantization for Large Language Models

  6. Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
  7. MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Segment Anything



摘要:Meta 发布了新模型 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。


除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。


如下面动图所示,SAM 能很好的自动分割图像中的所有内容:



推荐:Meta 发布「分割一切」AI 模型,CV 或迎来 GPT-3 时刻。


论文 2:Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning



摘要:来自 UCLA 和艾伦人工智能研究院(AI2) 的研究人员推出了 Tabular Math Word Problems (TabMWP) ,这是一个包含了 38,431 个开放领域问题的数据集,需要同时在文本和表格数据上进行数学推理得到正确答案。TabMWP 中的每个问题都与一个上下文相关联,这个上下文包含图片、文本或结构化格式的表格。


研究人员在 TabMWP 上评估了包括 Few-shot GPT-3 等不同的预训练模型。正如已有的研究发现,Few-shot GPT-3 很依赖 in-context 示例的选择,这导致其在随机选择示例的情况下性能相当不稳定。这种不稳定在处理像 TabMWP 这样复杂的推理问题时表现得更加严重。为了解决这一问题,作者提出了 PromptPG 方法,这种方法将示例的选择转化成强化学习中的 contextual bandit 问题,并且利用 Policy Gradient 训练一个策略网络来学习从少量的训练数据中选择最优的 in-context 示例。实验结果表明,他们提出的 PromptPG 方法在回答问题的准确性上超过最优基准(Few-shot CoT GPT-3)5.31%,并且相对于随机选择的 in-context examples,他们的方法显著降低了预测的方差,提升了这类方法的稳定性。



推荐:PromptPG:当强化学习遇见大规模语言模型。


论文 3:A Survey of Large Language Models



摘要:考虑到 LLMs 的快速技术进步,中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展,尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源,讨论了未来发展方向等问题。对于领域内研究人员和工程师而言,这份综述是一份极其有用的学习资源。


在进入正文前,我们先来看 2019 年以来出现的各种大语言模型(百亿参数以上)时间轴,其中标黄的大模型已开源。



推荐:大型语言模型综述全新出炉:从 T5 到 GPT-4 最全盘点,国内 20 余位研究者联合撰写。


论文 4:HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace



摘要:来自浙江大学和微软亚研的研究者最近提出了一种让 LLM 充当控制器的新方法,让 LLM 来管理现有的 AI 模型以解决复杂的 AI 任务,并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区(例如 HuggingFace)中各种 AI 模型以解决复杂 AI 任务的系统。


具体来说,HuggingGPT 在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型,HuggingGPT 能够完成覆盖不同模态和领域的复杂 AI 任务,并在语言、视觉、语音等具有挑战性的任务中取得了令人印象深刻的结果。HuggingGPT 为走向通用人工智能开辟了一条新的道路。


HuggingGPT 是一个协作系统,大型语言模型(LLM)充当控制器、众多专家模型作为协同执行器。其工作流程共分为四个阶段:任务规划、模型选择、任务执行和响应生成。



推荐:用 ChatGPT「指挥」数百个模型,HuggingGPT 让专业模型干专业事。


论文 5:RPTQ: Reorder-based Post-training Quantization for Large Language Models



摘要:在这篇论文中,来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围,而不仅仅是离群值问题。


作者提出了一种新颖的基于重排序的量化方法 RPTQ,解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道,然后将它们分簇进行量化,从而降低通道范围差异的影响。


此外,作者通过避免显式重新排序来减少存储和计算开销。该工作首次将 LLM 模型的激活量化推向 3 比特。激活值的 3 比特量化同时也能与权重的 3 比特量化共同使用,大幅度降低了大型欲言模型的开销。


推荐:基于重排序的新量化方法RPTQ。


论文 6:Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners



摘要:UMass Amherst 淦创团队提出了 Mod-Squad 模型,它可以从多任务大模型中提取针对单一任务的相同性能小模型,在 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。


如下图所示, Mod-Squad 的结构就是将 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一种机器学习模型,其中多个专家组成了一个混合模型。每个专家都是一个独立的模型,并且每个模型对于不同的输入有不同的贡献。最后,所有专家的贡献被加权并组合在一起以得到最终的输出。这种方法的优势在于它可以根据输入图像的内容动态地选择最佳的专家并且控制计算量。


Mod-Squad: 将专家组 (mixture-of-expert) 插入到 Vision Transformer.


推荐:模块化 MoE 将成为视觉多任务学习基础模型。


论文 7:MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS



摘要:来自微软的研究者从人类解决数学问题的方式中获得灵感,将其分解为更简单的多步骤程序,并在每个步骤中利用多种方式来验证他们的方法。


本文提出的方法 ——MathPrompter,就是试图将这种思维过程的一部分转移到大型语言模型答案生成过程中。图 1 概述了 MathPrompter 解决一个数学推理问题所遵循的步骤。



推荐:让大模型像学生一样解数学题,正确率提升 14%,微软的 MathPrompter 了解一下。

相关文章
|
10月前
|
自然语言处理 数据可视化 C++
Github 68000+ star,一款提升论文写作效率的黑科技,挖掘大语言模型的学术潜能,为什么gpt_academic能成为你论文写作的秘密武器?
binary-husky/gpt_academic 是一款集成 GPT/GLM 类大模型的学术写作优化神器,学术界和科研领域都在快速拥抱大语言模型 (LLM),但真正能助力论文阅读、润色、写作的工具却少之又少。gpt_academic(GPT 学术优化)正是为此诞生:聚焦论文生产全流程,从阅读理解、翻译润色、结构优化,到理工项目剖析,提供一站式解决方案。
623 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
741 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
11月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
813 3
|
12月前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
机器学习/深度学习 人工智能 自然语言处理
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
1137 12
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
1533 9
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
|
机器学习/深度学习 人工智能 编解码
Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器
Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。
1066 5
|
人工智能 算法
细思极恐,GPT-4竟串谋AI欺骗人类!哈佛PSU重磅揭秘算法共谋,AI教父预言正成真
近日,哈佛大学和宾夕大合著的重磅论文揭示,基于大型语言模型(如GPT-4)的算法可能自主串谋,损害消费者利益。研究发现,这些算法在虚拟市场中能迅速达成默契,提高价格以获取更高利润,类似于人类垄断行为。这一现象曾被DeepMind联合创始人Shane Legg预言,如今成为现实。论文呼吁加强对AI的监管,确保其透明性和可解释性,以防止潜在风险,并促进AI的可持续发展。
443 6
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
397 3

热门文章

最新文章