2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推(2)

简介: 2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文 7:Solving Quantitative Reasoning Problems with Language Models

来自谷歌的研究者提出了一种叫作 Minerva 的深度学习语言模型,可以通过逐步推理解决数学定量问题。其解决方案包括数值计算、符号操作,而不需要依赖计算器等外部工具。
此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。
Minerva 建立在 PaLM(Pathways Language Model ) 的基础上,在 118GB 数据集上进一步训练完成,数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。
下图为 Minerva 解决问题示例展示:

论文地址:https://arxiv.org/abs/2206.14858
论文 8:No Language Left Behind: Scaling Human-Centered Machine Translation

来自 Meta AI 的研究者发布了翻译模型 NLLB(No Language Left behind ),直译为「一个语言都不能少」,其可以支持 200 + 语言之间的任意互译,除了中英法日等常用语种翻译外,NLLB 还能对包括卢干达语、乌尔都语等在内的许多小众语言进行翻译。
Meta 宣称,这是全球第一个以单一模型对应多数语言翻译的设计,他们希望借此能够帮助更多人在社群平台上进行跨语言互动,同时提高用户在未来元宇宙中的互动体验。


论文地址:https://arxiv.org/abs/2207.04672v3


论文 9:High-Resolution Image Synthesis with Latent Diffusion Models

最近一段时间 Stable Diffusion 火爆出圈,围绕这一技术展开的研究数不胜数。
该研究是来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》,并与 Eleuther AI、LAION 等团队合作完成。Stable Diffusion 可以在消费级 GPU 上 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的图像,无需预处理和后处理。
时间仅过去四个月,该开源项目已收获 38K 星。


项目地址:https://github.com/CompVis/stable-diffusion
Stable Diffusion 生成图像示例展示:

论文 10:Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI 发布开源模型 Whisper,在英语语音识别方面接近人类水平,并具有较高的准确性。
Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的 98 种语言和多任务监督数据对 Whisper 进行了训练。除了可以用于语音识别,Whisper 还能实现多种语言转录,以及将这些语言翻译成英语。


论文地址:https://arxiv.org/abs/2212.04356
论文 11:Make-A-Video: Text-to-Video Generation without Text-Video Data

来自 Meta AI 的研究者提出了一种最先进的文本到视频模型:Make-A-Video,可以将给定的文本提示生成视频。
Make-A-Video 有三个优点:(1)它加速了 T2V(Text-to-Video)模型的训练,不需要从头开始学习视觉和多模态表示,(2)它不需要配对的文本 - 视频数据,(3)生成的视频继承了当今图像生成模型的多项优点。
该技术旨在实现文本到视频生成,仅用几个单词或几行文本就能生成独一无二的视频。如下图为一只狗穿着超级英雄的衣服,披着红色的斗篷,在天空中飞翔:

论文地址:https://arxiv.org/abs/2209.14792
论文 12:Galactica: A Large Language Model for Science

近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。
最近,Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。Galactica 可以自己总结归纳出一篇综述论文、生成词条的百科查询、对所提问题作出知识性的回答。


论文地址:https://arxiv.org/abs/2211.09085
参考链接:https://twitter.com/omarsar0/status/1607080018546417665

相关文章
|
机器学习/深度学习 Web App开发 人工智能
2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推(1)
2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(2)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
105 0
|
人工智能 自然语言处理 计算机视觉
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(1)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
181 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
274 0
|
机器学习/深度学习 存储 人工智能
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
191 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
254 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
1月前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
181 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
1月前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
104 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
1月前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
73 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
115 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

热门文章

最新文章