一周AI最火论文 | 使用图形界面就能搭建的强化学习模型

简介: 一周AI最火论文 | 使用图形界面就能搭建的强化学习模型

本周关键词:自动驾驶、强化学习、GANs

本周最佳学术研究

Waymo开放数据集挑战赛

今年3月,Alphabet旗下的自动驾驶公司Waymo发起公开挑战赛,参赛者可以使用其自动驾驶数据集(包括2D和3D检测、2D和3D跟踪以及域适应数据)来建立和测试机器学习模型。挑战赛收到来自世界各地的上百份代码提交,最终入围决赛的选手来自中国、英国、新加坡、美国等多个国家。

最近公开的Waymo开放数据集(Waymo Open Dataset,WOD)是用于自动驾驶研究的大型数据集,提供了1000个用于训练和验证以及150个用于测试的驾驶片段。每个片段包含拍摄自不同摄像机的镜头,平均每部摄像机约200帧图像,这其中还包括5台分辨率为1280×1920或886×1920的高分辨率摄像机。总而言之,该数据集包含约115万张关于车辆、行人和骑自行车的人的图像,以及990万张2D边界框。

本论文给出了Waymo开放数据集(WOD)2020挑战赛的最佳解决方案。作者采用FPN(Feature pyramid networks)作为基本框架,而级联RCNN、堆叠PAFPN(Path aggregation FPN)和多头RCNN则用于提高性能。为了处理WOD中的小目标检测问题,训练和测试都使用了超大尺寸的图像,本文的方案在2D对象检测跟踪中排名第一。作者们计划持续增加数据集,希望这将有助于国际研究界在机器感知和自动驾驶技术方面取得进步。

原文:
https://arxiv.org/abs/2008.01365v1

MusPy - 用于生成符号音乐的工具包

本文介绍了MusPy,一个用于生成符号音乐的开源Python库。MusPy为音乐生成系统中的基本组件提供了易于使用的工具,包括数据集管理,数据I / O,数据预处理和模型评估等。

为了展示模型能力,作者对MusPy当前支持的11个数据集进行了统计分析。此外,他们还进行了跨数据集的泛化实验,通过在每个数据集上训练自回归模型,测量其他数据集上的留存可能性(MusPy的数据集管理系统使此过程变得更加容易)。

源码及文档:
https://github.com/salu133445/muspy
原文:
https://arxiv.org/abs/2008.01951v1

深度轻量级Transformer模型

在本论文中,Facebook人工智能实验室和艾伦人工智能研究所的研究人员提出了一种名为DeLighT的极深度轻量级Transformer模型。他们认为,与其他基于Transformer的模型相比,DeLighT可以提供类似或更好的性能,并且参数要少得多。

DeLighT可以高效地分配参数,它使用DExTra(一种深度轻量级转换)在每个Transformer编码器层中分配参数,而在各层之间使用逐层缩放的方法,这种方法允许在输入附近使用较浅较窄的DeLighT层,在输出附近使用较宽较深的DeLighT层。

总体而言,DeLighT网络的深度可以是标准Transformer模型的2.5至4倍,但参数和操作却少得多。在机器翻译和语言建模任务上进行的实验表明,DeLighT可以用更少的参数达到Transformer基线模型的性能。

源码:
https://github.com/sacmehta/delight
原文:
https://arxiv.org/abs/2008.00623v1

一个新型、简单并且可扩展性高的强化学习框架

强化学习(RL)已成为当下主流之一的研究领域,前沿的人工智能公司都会将其作为重要工具来对待。因此,许多研究人员建立了RL框架,例如openAI Gym和KerasRL,以简化其他人的使用。

为了降低RL新手的入门障碍,本文提出了一个新框架——EasyRL。EasyRL是一个通过交互式GUI来构建、训练和评估RL代理的框架。

由于EasyRL完全以GUI呈现,因此不需要有关于训练或测试其内置RL代理的编程知识。该框架还支持自定义RL代理和环境,这对于RL研究人员评估和比较其RL模型非常有帮助。

原文:
https://arxiv.org/abs/2008.01700v1

用于图像和视频合成的GANs:算法与应用

GANs现在是执行各种图像和视频合成任务的强大工具。它们能生成高分辨率的逼真图像和视频,而在此之前这是一项艰巨甚至不可能的任务。GANs还能在内容创作中生成一些新内容。

在这项工作中,研究人员提供了GANs的概述,着重于视觉合成的算法和应用。它们涵盖了稳定GANs训练的几种重要技术,尤其是一些臭名昭著的技术难点。他们还讨论了其在图像翻译,图像处理,视频合成和神经渲染中的应用。

原文:
https://arxiv.org/abs/2008.02793v1

其他爆款论文

简单的Modulo可以大大胜过基于深度学习的代码:
https://arxiv.org/abs/2008.01686v1

一种用于有效标记的主动图像合成方法,可提高使用小数据进行学习任务时的性能:
https://arxiv.org/abs/1902.01522v4

引入Cylinder3D进行驾驶场景LiDAR语义分割:
https://arxiv.org/abs/2008.01550v1

单个示例生成连贯的层级样式:
https://arxiv.org/abs/2008.01531v1

学习资源

机器学习简单的自学资源:
https://developers.google.com/machine-learning/crash-course

吴恩达讲授斯坦福机器学习课程:
http://www.holehouse.org/mlclass/?fbclid=IwAR1XmS0CtIXUDg0s2bxeTUpiv2Dh08L_DaDQqA2HCXqafUFfcWays6S07UI

AI大事件

AI可能会创造的20种严重犯罪:
https://www.zdnet.com/article/evil-ai-these-are-the-20-most-dangerous-crimes-that-artificial-intelligence-will-create/

Julia 1.5发布:
https://www.zdnet.com/article/programming-language-julia-version-1-5-is-out-lots-of-new-features-better-performance/

相关文章
|
9天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
56 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
11天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
52 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
11天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
53 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
15天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
107 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
12天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
31 5
【AI系统】模型转换流程
|
12天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
33 4
【AI系统】模型转换基本介绍
|
12天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
49 4
【AI系统】模型压缩基本介绍
|
12天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
27 2
【AI系统】模型剪枝
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】轻量级CNN模型综述
本文介绍了几种常见的小型化CNN模型,包括SqueezeNet、ShuffleNet、MobileNet等系列。这些模型通过减少参数量和计算量,实现在有限资源下高效运行,适用于存储和算力受限的场景。文章详细解释了各模型的核心技术和优化策略,如Fire Module、Channel Shuffle、Depthwise Separable Convolutions等,旨在帮助读者理解和应用这些高效的小型化CNN模型。
35 3
|
4天前
|
人工智能 自然语言处理 物联网
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。