CVPR 2024:合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

简介: 【6月更文挑战第12天】CVPR 2024上的M3Act数据集解决了复杂人群行为标注难题,提供多视角、多群体的合成视频数据,助力计算机视觉研究。利用Unity引擎生成高度真实的人类动作和群体活动,促进以人类为中心任务的学习。实验显示,M3Act能提升目标检测等任务性能,降低数据收集成本,并支持3D群体活动的可控生成。尽管面临数据复杂性、偏差和计算资源限制等问题,M3Act为相关研究提供了宝贵资源。[论文链接](https://arxiv.org/abs/2306.16772)

在计算机视觉领域,对复杂人类交互和群体活动的学习研究已经成为一个重点。然而,由于从真实场景中获取大规模标注数据集的挑战,相关任务的进展常常受到阻碍。为了解决这一限制,研究人员在CVPR 2024上提出了一种名为M3Act的新型数据集,用于生成多视角、多群体、多人物的人类原子动作和群体活动。

M3Act是由Unity引擎驱动的,它具有多个语义群体、高度多样化和逼真的图像以及全面的标注集,这些都有助于在单人、多人和多群体条件下学习以人类为中心的任务。这个数据集的引入为研究人员提供了一个宝贵的资源,使他们能够训练和测试他们的模型,而无需依赖昂贵且难以获取的真实世界数据。

研究人员通过三个核心实验展示了M3Act的优势。首先,他们发现使用M3Act数据集可以显著提高几个下游方法的性能,包括目标检测、实例分割和动作识别。这表明M3Act可以有效地用于预训练模型,然后在真实世界的数据上进行微调,以获得更好的性能。

其次,研究人员发现M3Act可以替代真实世界的数据集,从而降低成本。由于M3Act可以生成大规模的标注数据,研究人员可以避免花费时间和资源来收集和标注他们自己的数据集。这对于那些没有足够资源来收集大规模真实世界数据集的研究人员来说尤其重要。

最后,研究人员发现M3Act可以用于生成可控的3D群体活动。他们定义了多个指标,并提出了一个有竞争力的基准方法来解决这个新任务。这为研究人员提供了一个平台,可以在这个平台上开发新的算法和技术,以生成更逼真和多样化的群体活动。

然而,尽管M3Act具有许多优点,但也存在一些潜在的局限性。首先,尽管M3Act可以生成大规模的标注数据,但这些数据可能无法完全捕捉到真实世界中的所有复杂性和多样性。其次,将M3Act生成的数据用于训练模型可能会引入一些偏差,因为这些数据可能与真实世界的数据存在差异。

此外,M3Act的生成过程可能需要大量的计算资源,这可能会限制其在资源受限的环境中的应用。最后,M3Act目前只关注人类行为和群体活动,而没有考虑其他类型的数据,如环境和对象。

论文链接:https://arxiv.org/abs/2306.16772

目录
相关文章
|
4月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
231 0
|
7天前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
22 4
|
1月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
3月前
|
机器学习/深度学习 算法 安全
基于YOLOv8深度学习的危险区域人员闯入检测与报警系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、区域闯入
基于YOLOv8深度学习的危险区域人员闯入检测与报警系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、区域闯入
|
3月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
45 2
|
9月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
325 1
|
算法 Go 计算机视觉
项目实践 | 基于YOLO-V5实现行人社交距离风险提示(文末获取完整源码)(一)
项目实践 | 基于YOLO-V5实现行人社交距离风险提示(文末获取完整源码)(一)
257 0
|
安全 算法 计算机视觉
项目实践 | 基于YOLO-V5实现行人社交距离风险提示(文末获取完整源码)(二)
项目实践 | 基于YOLO-V5实现行人社交距离风险提示(文末获取完整源码)(二)
120 0
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
269 0
|
机器学习/深度学习 人工智能 数据可视化
AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法
AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法
110 0