UniAD 加入 Lidar 模态-阿里云开发者社区

UniAD 加入 Lidar 模态

2024-06-08 14

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 解决2：检测和跟踪需要分开训练。uniad 原作者使用的是 bevformer 预训练的检测权重。因此，先要写一个检测代码，作单帧检测任务。然后将训练好的检测权重 load 到跟踪的代码中。

UniAD 加入 Lidar 模态
UniAD 加入 Lidar 模态相当于是在 BEVFormer 中加入 Lidar 模态。问题是如何加入？

读取历史帧数据
如何读取多帧图片数据？

使用的是 nuscenes_e2e_dataset - > prepare_train_data 方法，里面有个 for i in prev_indexs_list 循环。

处理点云数据
读取图片的时候，当前帧和历史帧都是 (6, c, h, w)，读 4 帧历史帧，可以和当前帧拼接成 (5, 6, c, h, w)。最终会形成 (bs, 5, 6, c, h, w)

点云数据不同，每帧点云点的个数不相同，(32692, 5), (32867, 5), ... 那么无法将多个历史帧拼接起来。

方法1
统一每一帧为 32768 个点，若当前帧点数不够，则补点: (0, 0, 0, 0, 0)。在 train_pipeline 中执行。若当前帧点数太多，则随机删除一些点。

方法2
使用 mmdet3d 框架的 Pointsample 类，在 train_pipeline 中加入 dict(type='PointSample', num_points=32768)。

在 BEVFormer 中加入点云数据
使用 BEVFormer 加入激光
方法参考 github 代码相关 tag： v1.0, v2.0

使用 BEVFusion 方法
问题1：bevfusion 使用 bev_pool 算子，这个算子在 uniad 使用的 mmdet3d 代码中没有。

解决1：在 bevfusion 代码中，复制 bev_pool 这个算子（整个文件夹），到 mmdet3d 的 ops 中。再复制 setup.py 相关代码。重新编译 mmdet3d 即可。

问题2：训练 track 的时候 loss 很大。

解决2：检测和跟踪需要分开训练。uniad 原作者使用的是 bevformer 预训练的检测权重。因此，先要写一个检测代码，作单帧检测任务。然后将训练好的检测权重 load 到跟踪的代码中。

问题3：第 0 帧的 bbox_loss 很正常，是 0.4 左右，从第 1 帧开始的 bbox_loss 非常大
)，大约为 10。

解决3：第 i 帧的位置 = 第 i-1 帧的(位置+速度x时间)所得，即 pos[i]= pos[i-1] + v[i-1] * (t[i] - t[i-1])。然后与当前帧的检测结果进行滤波得到。但是 uniad 中有 bug，time_delta 并没使用微妙
)。因此，time_delta 除以 1e6，得以解决。

日期
2024/01/30：时间辍问题
2023/12/14：记录 BEVFusion 方法问题
2023/11/10：完成历史帧的读取和点云数据的预处理

UniAD 加入 Lidar 模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景