2024年3月最新的深度学习论文推荐

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。

Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning.

https://arxiv.org/abs/2402.17457

学习速率为什么会迁移?本研究试图从理论上解释MuP超参数传递的成功之处。根据其创作者的说法,训练损失的Hessian矩阵的最大特征值不受网络深度或广度的影响。

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition.

https://arxiv.org/abs/2402.19231v1

CricaVPR提出了一种视觉位置识别的交叉图像相关感知表征学习的方法,专注于许多照片之间的关系,即使它们是在各种情况下拍摄的,以提高视觉位置识别。

Empowering Large Language Model Agents through Action Learning.

https://arxiv.org/abs/2402.15809

通过动作学习增强大型语言模型代理的能力。使用迭代学习策略研究语言代理的开放动作学习,该策略使用Python函数来创建和改进动作;在每次迭代中,提出的框架(LearnAct)根据执行反馈对可用动作进行修改和更新,扩大动作空间,提高动作有效性;LearnAct框架在机器人规划和AlfWorld环境中进行了测试,与ReAct+ reflection相比,AlfWorld中的代理性能提高了32%。

PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval.

https://arxiv.org/abs/2402.19273

基于定制语言模型和高效检索的城市规划。演示了如何使用llm集成几种方法,如检索增强、微调、工具利用等;虽然建议的框架是在城市和空间规划的背景下使用的,但许多见解和有用的建议也适用于其他领域。

Resonance RoPE: Improving Context Length Generalization of Large Language Models.

https://arxiv.org/abs/2403.00071

改进大型语言模型的上下文长度泛化。为了帮助LLM理解和生成比最初训练时更长的文本序列,研究人员创造了一种名为RoPE的新方法。通过使用更少的处理能力,方法优于当前的旋转位置嵌入(RoPE)技术,并提高了冗长文本的模型性能。

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World.

https://arxiv.org/abs/2402.19474v1

对开放世界的一般关系理解。All-Seeing Project V2引入了ASMv2模型,它混合了文本生成、对象定位和理解图像中对象之间的联系。

Stable Diffusion 3

https://stability.ai/news/stable-diffusion-3-research-paper

最新的SD3优于DALL·e3、Midjourney v6,新的多模态扩散Transformer(Multimodal Diffusion Transformer, MMDiT)架构为图像和语言表示使用独立的权重集,与以前版本的SD3相比,这提高了文本理解和拼写能力。

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures.

https://arxiv.org/abs/2403.02308v1

基于RWKV-Like架构的高效可扩展视觉感知。vision -RWKV通过修改NLP的RWKV架构来进行计算及视觉的任务,为高分辨率图像处理提供了有效的解决方案。

Design2Code

https://arxiv.org/abs/2403.03163

我们离自动化前端工程还有多远?使用设计图并将其转化为代码是很困难的。论文将18B模型作为基线,评估表明gpt - 4v生成的代码有时比人工合成的代码更受欢迎。

https://avoid.overfit.cn/post/8a1f17f10c7f43ec93afb3abd0f3a14c

目录
相关文章
|
6天前
|
机器学习/深度学习 自然语言处理 数据挖掘
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
|
6天前
|
机器学习/深度学习 编解码 人工智能
2024年2月深度学习的论文推荐
我们这篇文章将推荐2月份发布的10篇深度学习的论文
63 1
|
9月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
事件抽取是从海量文本数据中快速获取事件信息的一项重要研究任务。随着深度学习的快速发展,基于深度学习技术的事件抽取已成为研究热点。文献中提出了许多方法、数据集和评估指标,这增加全面更新调研的需求。
401 0
|
机器学习/深度学习 算法 数据可视化
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
 过去几年,在经典数据集PASCAL上,物体检测的效果已经达到 一个稳定水平。效果最好的方法是融合了多种低维图像特征和高维上 下文环境的复杂集成系统。在这篇论文里,我们提出了一种简单并且 可扩展的检测算法,可以在VOC2012最好结果的基础上将mAP值提 高30%以上——达到了53.3%。
127 0
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
|
机器学习/深度学习 自然语言处理
十年来论文量激增,深度学习如何慢慢推开数学推理的门(2)
十年来论文量激增,深度学习如何慢慢推开数学推理的门
|
机器学习/深度学习 消息中间件 人工智能
十年来论文量激增,深度学习如何慢慢推开数学推理的门(1)
十年来论文量激增,深度学习如何慢慢推开数学推理的门
115 0
|
机器学习/深度学习 自然语言处理 算法
深度学习,经典论文盘点!
深度学习,经典论文盘点!
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中文版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
大多数基于 CNN 的目标检测器基本上都仅适用于推荐系统。例 如:通过城市摄像头寻找免费停车位,它由精确的慢速模型完成,而 汽车碰撞警报需要由快速、低精度模型完成。改善实时目标检测器的 精度,使其能够不仅可以用于提示生成推荐系统,也可以用于独立的 流程管理和减少人力投入。传统 GPU 使得目标检测可以以实惠的价 格运行。最准确的现代神经网络不是实时运行的,需要大量的训练的 GPU 与大的 mini bacth size。我们通过创建一个 CNN 来解决这样的 问题,在传统的 GPU 上进行实时操作,而对于这些训练只需要一个 传统的 GPU。
205 0
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
 有大量的技巧可以提高卷积神经网络(CNN)的精度。需要在大 数据集下对这种技巧的组合进行实际测试,并需要对结果进行理论论 证。某些技巧仅在某些模型上使用和专门针对某些问题,或只针对小 规模的数据集;而一些技巧,如批处理归一化、残差连接等,适用于 大多数的模型、任务和数据集。我们假设这种通用的技巧包括加权残 差连接(Weighted-Residual-Connection,WRC)
233 0
|
机器学习/深度学习 固态存储 数据挖掘
深度学习论文阅读目标检测篇(六)中文版:YOLOv3《 An Incremental Improvement》
  有时候,一年内你主要都在玩手机,你知道吗?今年我没有做很 多研究。我在 Twitter 上花了很多时间。研究了一下 GAN。去年我留 下了一点点的精力[12] [1];我设法对 YOLO 进行了一些改进。但是, 实话实说,除了仅仅一些小的改变使得它变得更好之外,没有什么超 级有趣的事情。我也稍微帮助了其他人的一些研究。
111 0