7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet

简介: 7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet


机器之心 & ArXiv Weekly

参与:楚航、罗若天、梅洪源

本周重要论文包括 AI 绘图神器ControlNet、Transformer 模型综述等研究。


目录


  1. Transformer models: an introduction and catalog
  2. High-throughout Generative Inference of Large Language Models with a Single GPU
  3. Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
  4. Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Adding Conditional Control to Text-to-Image Diffusion Models
  7. EVA3D: Compositional 3D Human Generation from 2D image Collections
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Transformer models: an introduction and catalog



摘要:自 2017 年提出至今,Transformer 模型已经在自然语言处理、计算机视觉等其他领域展现了前所未有的实力,并引发了 ChatGPT 这样的技术突破,人们也提出了各种各样基于原始模型的变体。


由于学界和业界不断提出基于 Transformer 注意力机制的新模型,我们有时很难对这一方向进行归纳总结。近日,领英 AI 产品战略负责人 Xavier Amatriain 的一篇综述性文章或许可以帮助我们解决这一问题。


推荐:本文的目标是为最流行的 Transformer 模型提供一个比较全面但简单的目录和分类,还介绍了 Transformer 模型中最重要的方面和创新。


论文 2:High-throughout Generative Inference of Large Language Models with a Single GPU



摘要:传统上,大语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。、


近日,来自斯坦福大学、UC Berkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了 FlexGen,这是一种用于运行有限 GPU 内存的 LLM 的高吞吐量生成引擎。下图为 FlexGen 的设计思路, 利用块调度来重用权重并将 I/O 与计算重叠,如下图 (b) 所示,而其他基线系统使用低效的逐行调度,如下图 (a) 所示。


推荐:跑 ChatGPT 体量模型,从此只需一块 GPU:加速百倍的方法来了。


论文 3:Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks



摘要:在领域泛化 (Domain Generalization, DG) 任务中,当领域的分布随环境连续变化时,如何准确地捕捉该变化以及其对模型的影响是非常重要但也极富挑战的问题。


为此,来自 Emory 大学的赵亮教授团队,提出了一种基于贝叶斯理论的时间域泛化框架 DRAIN,利用递归网络学习时间维度领域分布的漂移,同时通过动态神经网络以及图生成技术的结合最大化模型的表达能力,实现对未来未知领域上的模型泛化及预测。


本工作已入选 ICLR 2023 Oral (Top 5% among accepted papers)。如下为 DRAIN 总体框架示意图。


推荐:漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化 & 适应方法。


论文 4:Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning



摘要:为了保障能源供应和应对气候变化,人们的焦点从化石燃料转向清洁和可再生能源,氢以其高能密度和清洁低碳的能源属性可以在能源转型变革中发挥重要作用。氢燃料电池,尤其是质子交换膜燃料电池 (PEMFC),由于高能量转换效率和零排放操作,成为这场绿色革命的关键。


PEMFC 通过电化学过程将氢转化为电能,反应的唯一副产品是纯水。然而,如果水不能正常流出电池,随后「淹没」系统,PEMFC 可能会变得低效。到目前为止,由于燃料电池体积非常小且结构非常复杂,工程师们很难理解燃料电池内部排水或积水的精确方式。


近日,悉尼新南威尔士大学的研究团队开发了一种深度学习算法(DualEDSR),来提高对 PEMFC 内部情况的理解,可以从较低分辨率的 X 射线微计算机断层扫描中生成高分辨率的建模图像。该工艺已经在单个氢燃料电池上进行了测试,可以对其内部进行精确建模,并有可能提高其效率。下图展示了本研究中生成的 PEMFC 域。


推荐:深度学习对燃料电池内部进行大规模物理精确建模,助力电池性能提升。


论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT



摘要:这篇近百页的综述梳理了预训练基础模型的演变史,让我们看到 ChatGPT 是怎么一步一步走向成功的。


推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。


论文 6:Adding Conditional Control to Text-to-Image Diffusion Models



摘要:本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。


推荐:AI 降维打击人类画家,文生图引入 ControlNet,深度、边缘信息全能复用。


论文 7:EVA3D: Compositional 3D Human Generation from 2D image Collections



摘要:在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。


本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。


推荐:ICLR 2023 Spotlight | 2D 图像脑补 3D 人体,衣服随便搭,还能改动作。


ArXiv Weekly Radiostation

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
5天前
|
人工智能 机器人 UED
不怕不会设计logo拉-本篇教你如何使用AI设计logo-如何快速用AI设计logo-附上AI绘图logo设计的咒语-优雅草央千澈-实战教程
不怕不会设计logo拉-本篇教你如何使用AI设计logo-如何快速用AI设计logo-附上AI绘图logo设计的咒语-优雅草央千澈-实战教程
111 85
不怕不会设计logo拉-本篇教你如何使用AI设计logo-如何快速用AI设计logo-附上AI绘图logo设计的咒语-优雅草央千澈-实战教程
|
5天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
78 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
9天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
119 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
11天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
50 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
11天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
62 37
|
11天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
67 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
3天前
|
存储 人工智能 数据可视化
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
欢迎学习《基于 DANet 和 Deeplabv3 模型的遥感图像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的遥感地图区域分割系统,并利用开源数据集和昇腾 AI 芯片对模型效果加以验证。
10 0
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
|
4天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
5天前
|
人工智能 数据安全/隐私保护 图形学
关于AI绘画优雅草央千澈整理的一份咒语(与AI对话提示词-应用于AI绘图和AI生成视频)-本文长期更新-本次更新2025年1月15日更新-长期更新建议点赞收藏
关于AI绘画优雅草央千澈整理的一份咒语(与AI对话提示词-应用于AI绘图和AI生成视频)-本文长期更新-本次更新2025年1月15日更新-长期更新建议点赞收藏
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
13 0