每日学术速递2.24

简介: 在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.LG


1.BUAA_BIGSCity: Spatial-Temporal Graph Neural Network for Wind Power Forecasting in Baidu KDD CUP 2022


ed5bc216cd786bc8ba2d5e85d798d9d8.png


标题:BUAA_BIGSCity:百度KDD CUP 2022风电预测时空图神经网络

作者:Jiawei Jiang, Chengkai Han, Jingyuan Wang

文章链接:https://arxiv.org/abs/2302.11159v1

项目代码:https://github.com/buaabigscity/kddcup2022

dd061442210fce0310e6cd8ae4e74e12.png

406d7013e5c57c3319a6156edc463ae1.png

摘要:

       在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。使用RMSE(均方根误差)和MAE(平均绝对误差)的平均值作为评价分数。我们采用两个时空图神经网络模型,即 AGCRN 和 MTGNN,作为我们的基本模型。我们通过 5 折交叉验证训练 AGCRN,并直接在训练集和验证集上训练 MTGNN。最后,我们根据验证集的损失值对两个模型进行集成,作为我们的最终提交。使用我们的方法,我们的团队在测试集上达到了 -45.36026。

2.Learning to Generalize Provably in Learning to Optimize

579be244f00bc47b93327e243169e3ef.png

标题:在学习优化中学习可证明地概括

作者:Junjie Yang, Tianlong Chen, Mingkang Zhu, Fengxiang He, DaCheng Tao, Yingbin Liang, Zhangyang Wang

文章链接:https://arxiv.org/abs/2302.11085v1

项目代码:https://github.com/VITA-Group/Open-L2O

91051372d211a7f4d782603e1f4d6230.png

c415fc26f3e3170e4bdf0744e3b9f882.png

摘要:

       学习优化 (L2O) 越来越受欢迎,它通过数据驱动的方法自动设计优化器。然而,目前的 L2O 方法通常至少在两个方面存在泛化性能差的问题:(i) 将 L2O 学习的优化器应用于未见过的优化,以降低其损失函数值(优化器泛化,或“优化器的可泛化学习”) ); 和 (ii) 优化器(本身作为机器学习模型)的测试性能,由优化器训练,在未见数据的准确性方面(优化器泛化,或“学习泛化”)。虽然最近研究了优化器泛化,但优化器泛化(或学习泛化)尚未在 L2O 上下文中得到严格研究,这是本文的目的。我们首先在理论上建立了局部熵和 Hessian 矩阵之间的隐式联系,因此将它们在可泛化优化器的手工设计中的作用统一为损失函数景观平坦度的等效指标。然后,我们建议将这两个指标作为平坦度感知正则化器纳入 L2O 框架,以便元训练优化器学习泛化,并从理论上表明这种泛化能力可以在 L2O 元训练过程中学习,然后转化为优化损失函数。广泛的实验一致地验证了我们的建议的有效性,并在多个复杂的 L2O 模型和不同的优化上显着改进了泛化。

Subjects: cs.CV


3.Towards End-to-end Semi-supervised Learning for One-stage Object Detection

59fa6fc351f8ad0f7b5b8cd6e34cdb84.png


标题:面向单阶段目标检测的端到端半监督学习

作者:Gen Luo, Yiyi Zhou, Lei Jin, Xiaoshuai Sun, Rongrong Ji

文章链接:https://arxiv.org/abs/2302.11299v1

项目代码:https://github.com/luogen1996/oneteacher

44964a91fdd70b20ffaf942bd7deaebc.png

c4111d64a065f2be4e8135746333a01e.png

92c94448fd681e0f716550dfd734d614.png

摘要:

       半监督对象检测(SSOD)是计算机视觉领域的研究热点,它可以大大减少对昂贵的边界框标注的需求。尽管取得了巨大的成功,但现有的进展主要集中在像 FasterRCNN 这样的两级检测网络上,而对一级检测器的研究往往被忽视。在本文中,我们专注于先进和流行的单阶段检测网络 YOLOv5 的半监督学习。与 Faster-RCNN 相比,YOLOv5 的实现要复杂得多,YOLOv5 中使用的各种训练技术也可以降低 SSOD 的好处。除了这一挑战,我们还揭示了单阶段 SSOD 中的两个关键问题,分别是低质量伪标记和多任务优化冲突。为了解决这些问题,我们提出了一种名为 OneTeacher 的新型师生学习方法,它具有两种创新设计,即多视图伪标签优化 (MPR) 和解耦半监督优化 (DSO)。特别是,MPR 通过增强视图细化和全局视图过滤提高了伪标签的质量,而 DSO 通过结构调整和特定于任务的伪标签来处理联合优化冲突。此外,我们还仔细修改了 YOLOv5 的实现,以最大限度地发挥 SSOD 的优势,这也与现有的 SSOD 方法共享,以进行公平比较。为了验证 OneTeacher,我们对 COCO 和 Pascal VOC 进行了大量实验。广泛的实验表明,OneTeacher 不仅可以实现优于比较方法的性能,例如,相对于 Unbiased Teacher 提高 15.0% 的相对 AP,而且可以很好地处理单阶段 SSOD 中的关键问题

目录
相关文章
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
139 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
133 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
105 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
148 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
88 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
140 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
143 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
108 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
164 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
141 0