一周AI最火论文 | 使用图形界面就能搭建的强化学习模型

简介: 一周AI最火论文 | 使用图形界面就能搭建的强化学习模型

本周关键词:自动驾驶、强化学习、GANs

本周最佳学术研究

Waymo开放数据集挑战赛

今年3月,Alphabet旗下的自动驾驶公司Waymo发起公开挑战赛,参赛者可以使用其自动驾驶数据集(包括2D和3D检测、2D和3D跟踪以及域适应数据)来建立和测试机器学习模型。挑战赛收到来自世界各地的上百份代码提交,最终入围决赛的选手来自中国、英国、新加坡、美国等多个国家。

最近公开的Waymo开放数据集(Waymo Open Dataset,WOD)是用于自动驾驶研究的大型数据集,提供了1000个用于训练和验证以及150个用于测试的驾驶片段。每个片段包含拍摄自不同摄像机的镜头,平均每部摄像机约200帧图像,这其中还包括5台分辨率为1280×1920或886×1920的高分辨率摄像机。总而言之,该数据集包含约115万张关于车辆、行人和骑自行车的人的图像,以及990万张2D边界框。

本论文给出了Waymo开放数据集(WOD)2020挑战赛的最佳解决方案。作者采用FPN(Feature pyramid networks)作为基本框架,而级联RCNN、堆叠PAFPN(Path aggregation FPN)和多头RCNN则用于提高性能。为了处理WOD中的小目标检测问题,训练和测试都使用了超大尺寸的图像,本文的方案在2D对象检测跟踪中排名第一。作者们计划持续增加数据集,希望这将有助于国际研究界在机器感知和自动驾驶技术方面取得进步。

原文:
https://arxiv.org/abs/2008.01365v1

MusPy - 用于生成符号音乐的工具包

本文介绍了MusPy,一个用于生成符号音乐的开源Python库。MusPy为音乐生成系统中的基本组件提供了易于使用的工具,包括数据集管理,数据I / O,数据预处理和模型评估等。

为了展示模型能力,作者对MusPy当前支持的11个数据集进行了统计分析。此外,他们还进行了跨数据集的泛化实验,通过在每个数据集上训练自回归模型,测量其他数据集上的留存可能性(MusPy的数据集管理系统使此过程变得更加容易)。

源码及文档:
https://github.com/salu133445/muspy
原文:
https://arxiv.org/abs/2008.01951v1

深度轻量级Transformer模型

在本论文中,Facebook人工智能实验室和艾伦人工智能研究所的研究人员提出了一种名为DeLighT的极深度轻量级Transformer模型。他们认为,与其他基于Transformer的模型相比,DeLighT可以提供类似或更好的性能,并且参数要少得多。

DeLighT可以高效地分配参数,它使用DExTra(一种深度轻量级转换)在每个Transformer编码器层中分配参数,而在各层之间使用逐层缩放的方法,这种方法允许在输入附近使用较浅较窄的DeLighT层,在输出附近使用较宽较深的DeLighT层。

总体而言,DeLighT网络的深度可以是标准Transformer模型的2.5至4倍,但参数和操作却少得多。在机器翻译和语言建模任务上进行的实验表明,DeLighT可以用更少的参数达到Transformer基线模型的性能。

源码:
https://github.com/sacmehta/delight
原文:
https://arxiv.org/abs/2008.00623v1

一个新型、简单并且可扩展性高的强化学习框架

强化学习(RL)已成为当下主流之一的研究领域,前沿的人工智能公司都会将其作为重要工具来对待。因此,许多研究人员建立了RL框架,例如openAI Gym和KerasRL,以简化其他人的使用。

为了降低RL新手的入门障碍,本文提出了一个新框架——EasyRL。EasyRL是一个通过交互式GUI来构建、训练和评估RL代理的框架。

由于EasyRL完全以GUI呈现,因此不需要有关于训练或测试其内置RL代理的编程知识。该框架还支持自定义RL代理和环境,这对于RL研究人员评估和比较其RL模型非常有帮助。

原文:
https://arxiv.org/abs/2008.01700v1

用于图像和视频合成的GANs:算法与应用

GANs现在是执行各种图像和视频合成任务的强大工具。它们能生成高分辨率的逼真图像和视频,而在此之前这是一项艰巨甚至不可能的任务。GANs还能在内容创作中生成一些新内容。

在这项工作中,研究人员提供了GANs的概述,着重于视觉合成的算法和应用。它们涵盖了稳定GANs训练的几种重要技术,尤其是一些臭名昭著的技术难点。他们还讨论了其在图像翻译,图像处理,视频合成和神经渲染中的应用。

原文:
https://arxiv.org/abs/2008.02793v1

其他爆款论文

简单的Modulo可以大大胜过基于深度学习的代码:
https://arxiv.org/abs/2008.01686v1

一种用于有效标记的主动图像合成方法,可提高使用小数据进行学习任务时的性能:
https://arxiv.org/abs/1902.01522v4

引入Cylinder3D进行驾驶场景LiDAR语义分割:
https://arxiv.org/abs/2008.01550v1

单个示例生成连贯的层级样式:
https://arxiv.org/abs/2008.01531v1

学习资源

机器学习简单的自学资源:
https://developers.google.com/machine-learning/crash-course

吴恩达讲授斯坦福机器学习课程:
http://www.holehouse.org/mlclass/?fbclid=IwAR1XmS0CtIXUDg0s2bxeTUpiv2Dh08L_DaDQqA2HCXqafUFfcWays6S07UI

AI大事件

AI可能会创造的20种严重犯罪:
https://www.zdnet.com/article/evil-ai-these-are-the-20-most-dangerous-crimes-that-artificial-intelligence-will-create/

Julia 1.5发布:
https://www.zdnet.com/article/programming-language-julia-version-1-5-is-out-lots-of-new-features-better-performance/

相关文章
|
13天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
3416 117
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
8天前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
239 100
|
14天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
204 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
2天前
|
人工智能 编解码 算法
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
36 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
|
9天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
120 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
2天前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
55 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。
204 23
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
|
6天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
396 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
16天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
78 28
|
8天前
|
人工智能 Java 语音技术
【最佳实践系列】零基础上手百炼语音AI模型
阿里云百炼语音AI服务提供了丰富的功能,包括语音识别、语音合成、实时翻译等。通过`alibabacloud-bailian-speech-demo`项目,可以一键调用这些服务,体验语音及大模型的魅力,降低接入门槛。该项目支持Python和Java,涵盖从简单的一句话合成到复杂的同声传译等多个示例,助力开发者快速上手并进行二次开发。

热门文章

最新文章