2022出圈的ML研究：爆火的Stable Diffusion、通才智能体Gato，LeCun转推（2）-阿里云开发者社区

2022出圈的ML研究：爆火的Stable Diffusion、通才智能体Gato，LeCun转推（2）

2023-05-18 100

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2022出圈的ML研究：爆火的Stable Diffusion、通才智能体Gato，LeCun转推

论文 7：Solving Quantitative Reasoning Problems with Language Models

来自谷歌的研究者提出了一种叫作 Minerva 的深度学习语言模型，可以通过逐步推理解决数学定量问题。其解决方案包括数值计算、符号操作，而不需要依赖计算器等外部工具。
此外，Minerva 还结合了多种技术，包括小样本提示、思维链、暂存器提示以及多数投票原则，从而在 STEM 推理任务上实现 SOTA 性能。
Minerva 建立在 PaLM（Pathways Language Model ）的基础上，在 118GB 数据集上进一步训练完成，数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。
下图为 Minerva 解决问题示例展示：

论文地址：https://arxiv.org/abs/2206.14858
论文 8：No Language Left Behind: Scaling Human-Centered Machine Translation

来自 Meta AI 的研究者发布了翻译模型 NLLB（No Language Left behind ），直译为「一个语言都不能少」，其可以支持 200 + 语言之间的任意互译，除了中英法日等常用语种翻译外，NLLB 还能对包括卢干达语、乌尔都语等在内的许多小众语言进行翻译。
Meta 宣称，这是全球第一个以单一模型对应多数语言翻译的设计，他们希望借此能够帮助更多人在社群平台上进行跨语言互动，同时提高用户在未来元宇宙中的互动体验。

论文地址：https://arxiv.org/abs/2207.04672v3

论文 9：High-Resolution Image Synthesis with Latent Diffusion Models

最近一段时间 Stable Diffusion 火爆出圈，围绕这一技术展开的研究数不胜数。
该研究是来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》，并与 Eleuther AI、LAION 等团队合作完成。Stable Diffusion 可以在消费级 GPU 上 10 GB VRAM 下运行，并在几秒钟内生成 512x512 像素的图像，无需预处理和后处理。
时间仅过去四个月，该开源项目已收获 38K 星。

项目地址：https://github.com/CompVis/stable-diffusion
Stable Diffusion 生成图像示例展示：

论文 10：Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI 发布开源模型 Whisper，在英语语音识别方面接近人类水平，并具有较高的准确性。
Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的 98 种语言和多任务监督数据对 Whisper 进行了训练。除了可以用于语音识别，Whisper 还能实现多种语言转录，以及将这些语言翻译成英语。

论文地址：https://arxiv.org/abs/2212.04356
论文 11：Make-A-Video: Text-to-Video Generation without Text-Video Data

来自 Meta AI 的研究者提出了一种最先进的文本到视频模型：Make-A-Video，可以将给定的文本提示生成视频。
Make-A-Video 有三个优点：（1）它加速了 T2V（Text-to-Video）模型的训练，不需要从头开始学习视觉和多模态表示，（2）它不需要配对的文本 - 视频数据，（3）生成的视频继承了当今图像生成模型的多项优点。
该技术旨在实现文本到视频生成，仅用几个单词或几行文本就能生成独一无二的视频。如下图为一只狗穿着超级英雄的衣服，披着红色的斗篷，在天空中飞翔：

论文地址：https://arxiv.org/abs/2209.14792
论文 12：Galactica: A Large Language Model for Science

近年来，随着各学科领域研究的进步，科学文献和数据呈爆炸式增长，使学术研究者从大量信息中发现有用的见解变得越来越困难。通常，人们借助搜索引擎来获取科学知识，但搜索引擎不能自主组织科学知识。
最近，Meta AI 的研究团队提出了一种新的大型语言模型 Galactica，可以存储、组合和推理科学知识。Galactica 可以自己总结归纳出一篇综述论文、生成词条的百科查询、对所提问题作出知识性的回答。