盘一盘 | 基于BEV空间的视觉感知算法模型梳理(自下而上&自上而下)(上)
激光雷达传感器可以提供物体准确的深度信息以及结构信息;但激光雷达传感器提供物体信息的距离比较有限,同时其获得的点云数据与相机传感器采集到的图像信息相比更加稀疏;
最新!OMNI3D:3D目标检测的大型基准和模型(Meta AI)
由于2D识别的成功,论文引入了一个大型基准,称为OMNI3D,重新审视了3D目标检测的任务。OMNI3D对现有数据集进行了重新利用和组合,生成了234k张图像,标注了300多万个实例和97个类别。由于相机内参的变化以及场景和目标类型的丰富多样性,这种规模的3D检测具有挑战性。论文提出了一个名为Cube R-CNN的模型,旨在通过统一的方法在摄像机和场景类型之间进行泛化。结果表明,在更大的OMNI3D和现有基准上,Cube R-CNN优于先前的工作。最后,论文证明了OMNI3D是一个强大的3D目标识别数据集,表明它提高了单个数据集的性能,并可以通过预训练加速对新的较小数据集的学习。
大火的4D Radar数据集及基线模型汇总
Astyx数据集是第一个公开的包含4D雷达点云的数据集,提出了一个基于雷达、激光雷达和摄像机数据的以雷达为中心的汽车数据集,用于3D物体检测。主要重点是向研究界提供高分辨率雷达数据,刺激使用雷达传感器数据的算法研究。为此,提供了用于物体检测的半自动生成和手动重新定义的3D地面真实数据。论文描述了生成此类数据集的完整过程,重点介绍了相应高分辨率雷达的一些主要功能,并通过在此数据集上显示基于深度学习的3D对象检测算法的结果,展示了其在3-5级自动驾驶应用中的使用。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(下)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
Python 填补缺失值 Pandas SimpleImputer 随机森林模型 (机器学习)
Python 填补缺失值 Pandas SimpleImputer 随机森林模型 (机器学习)
一文尽览 | 计算机视觉中的鱼眼相机模型及环视感知任务汇总!(下)
环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等
一文尽览 | 计算机视觉中的鱼眼相机模型及环视感知任务汇总!(上)
环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等
ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务
本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。
RoNIN: Robust Neural Inertial Navigation预训练模型测试
RoNIN: Robust Neural Inertial Navigation预训练模型测试
YOLO家族系列模型的演变:从v1到v8(上)
YOLO V8已经在本月发布了,我们这篇文章的目的是对整个YOLO家族进行比较分析。了解架构的演变可以更好地知道哪些改进提高了性能,并且明确哪些版本是基于那些版本的改进,因为YOLO的版本和变体的命名是目前来说最乱的,希望看完这篇文章之后你能对整个家族有所了解。
【YOLO系列】YOLOv8算法(尖端SOTA模型)
Ultralytics YOLOv8 是由 Ultralytics开发的一个前沿 SOTA 模型。它在以前 YOLO 版本的成功基础上,引入了新的功能和改进,进一步提升了性能和灵活性。YOLOv8 基于快速、准确和易于使用的理念设计,使其成为广泛的物体检测、图像分割和图像分类任务的绝佳选择。
AIGC最近很火,给大家推荐一个已经有1000位开发者使用的中文aigc开源模型,包括ai画图、ai聊天
作为2022年以来AI圈最大的趋势,AIGC意味着,AI进军到了此前被视为“人类独占”的领域,如艺术表达、科学发现。
语音生成领域模型又填一名猛将
TTS即Text-to-speech文本转语音是近几年AI研究领域的一大热点,该类模型语音合成领域有着非常广阔的应用。 尤其是这两年有声书非常火热,有很多前几年积累的网络小说,经过TTS模型后,就变成了有声书,然后在喜马拉雅或蜻蜓FM等类似频道就可以上线售卖。又把该类模型的应用价值直接拉满。 但一个好的语音合成模型却非常难得,一方面要生成的对,即准确率要高;另一方面生成的语音要真实、机械感低。尤其是第二个方面非常难得。人类对于语句的朗读是有抑扬顿挫的,有时又要结合句子含义,有感情的变化。这对于模型是非常难以学习训练的。
如何使用魔搭ModelScope快速定制一款对长文本进行理解的模型?
本文详细介绍PoNet模型的原理以及其在ModelScope上的体验用法,包括PoNet简介原理、PoNet在ModelScope上怎么用、PoNet在各种下游任务上的效果等。
EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。