【首创】新加坡国立大学LV实验室发布多人图像解析数据集与模型

简介:

基于人物图像的细粒度解析是计算机视觉领域的一个非常重要的任务。人物解析(Human Parsing)指的是将人物图像按像素级别分割成属于身体部位或衣物项目的多个语义一致的区域。人物解析技术是很多实际应用的基础与关键,如虚拟现实、视频监控与群体行为分析。与单人图像解析相比,在多人交互的场景中进行人物解析则更具挑战性、更有现实意义。


为了解决这一难题,近日,新加坡国立大学LV实验室首次提出多人解析(Multi-Human Parsing)任务,对传统的人物解析进行了拓展与延伸,从而更好地匹配现实应用场景。他们构建了一个全新的大规模多人解析数据集(MHP),并给出了相应的评测标准,极大地推进了深度学习与计算机视觉领域相关技术的发展。针对所提出的多人解析任务,他们又提出一个全新的多人解析器(MH-Parser)模型,该模型在端到端训练过程中将全局信息与局部信息进行有机融合,性能远优于简单的“检测+分割”的方法。


作者赵健对新智元介绍说:“之前做Human Parsing这个任务的都是基于single instance,也就是每张图片中只有一个人,然后通过传统方法或者深度学习的方法对图片中的人物进行pixel-wise的dense classification,他们没有考虑更加贴近实际的多人场景。与我们的工作比较类似的还有一个叫做"Instance-Aware Object Segmentation"的任务,相关方法虽然也会针对多人进行检测与分割,但是只能给出以人物为最小单位的分割结果,并不能细化到每个人的衣服、饰品以及人物各个部位。因此,为了弥补这个研究缺口,我们提出“Multi-Human Parsing”这个任务并构建相应的数据集,我们在检测图中出现的所有人物的同时也能够给出像素级精细的分割结果,这对于虚拟现实、监控安防、群体行为分析、服饰识别与检索、自动化产品推荐等场景具有非常大的应用价值与意义。”


论文简介





作者:李建树(新加坡国立大学)、赵健(新加坡国立大学 & 国防科学技术大学)、魏云超(新加坡国立大学)、郎丛妍(北京交通大学)、李浥东(北京交通大学)、冯佳时(新加坡国立大学)。


注:前两名作者为同等贡献(均为第一作者)。导师冯佳时(https://sites.google.com/site/jshfeng/)是新加坡国立大学助理教授、新加坡国立大学LV实验室(http://www.lv-nus.org/)带头人,,本研究工作受新加坡国立大学启动基金、新加坡教育部学术研究基金资助。


【论文摘要】


近年来,可用的大量数据资源极大驱动了人物解析( Human Parsing )技术的发展。本文阐述了当前一些基准数据集与真实世界的人物解析场景之间的关键差异。比如,当前所有的人物解析数据集仅仅包含单人图像,然而在真实场景中通常会有多个人物同时出现的情况。因此,同时对图像中的多个人物进行解析更为符合实际需求,同时也对已有的人物解析方法提出了更大的挑战。不幸的是,相关数据资源的匮乏严重地阻碍了多人图像细粒度解析方法的发展。


为了进一步推进人物解析研究,作者首创多人解析(MHP)数据集,每张图像均包含现实世界场景中的多个人物。 具体而言,MHP数据集的每张图片包含2-16个人物不等,每个人物按照18个语义类别(背景除外)进行像素级别的标注。此外,MHP图像中的人物有多种姿态、不同程度的遮挡以及多样化的交互。为了解决所提出的多人解析这一难题,作者提出了一个新型的多人解析器 (MH-Parser)模型,在针对每个人物进行端到端解析的过程中,同时考虑全局信息与局部信息。实验结果表明,这一模型远优于简单的“检测+解析”方法,使得其作为一个稳定的基准,助推未来在真实场景中人物解析的相关研究。



深入了解




图1:MHP数据集与PASCAL-Person-Part和Look into Person两个Human Parsing数据集部分样本的可视化对比。



1:MHP数据集与其他 Human Parsing 数据集的统计数据对比其中包括每张图片中平均出现的人物数量、图像总数、训练图像数量、验证图像数量、测试图像数量以及语义类别数量。



图2:(左)MHP数据集标注示例;(中)每张图片所含人物数量的统计信息;(右)语义类别统计信息。


图3 :MH-Parser模型的原理图。


表2:不同模型所取得的解析结果对比。不同的模型使用的是不同的组件(G代表全局解析器,L 代表局部解析器,A 代表聚合器)。


表3 :MH-Parser模型与其他变体的性能指标对比。

图4:准确率--召回率曲线以及PCP-IOU曲线。


图5:MH-Parser模型在Human Parsing数据集的预测结果可视化。

图6: 错误案例分析。


作者赵健对新智元表示,后续他们的工作还将围绕“Multi-Human Parsing”展开与深入,将提出更加有效的方法来解决这一难题,也将构建更大规模、更加精细的数据集来推动相关技术的发展和进步。


文章转自新智元公众号,原文链接

相关文章
|
机器学习/深度学习 人工智能 算法
模型无关的局部解释(LIME)技术原理解析及多领域应用实践
在当前数据驱动的商业环境中,人工智能(AI)和机器学习(ML)已成为各行业决策的关键工具,但随之而来的是“黑盒”问题:模型内部机制难以理解,引发信任缺失、监管合规难题及伦理考量。LIME(局部可解释模型无关解释)应运而生,通过解析复杂模型的个别预测,提供清晰、可解释的结果。LIME由华盛顿大学的研究者于2016年提出,旨在解决AI模型的透明度问题。它具有模型无关性、直观解释和局部保真度等优点,在金融、医疗等领域广泛应用。LIME不仅帮助企业提升决策透明度,还促进了模型优化和监管合规,是实现可解释AI的重要工具。
838 9
|
开发框架 供应链 监控
并行开发模型详解:类型、步骤及其应用解析
在现代研发环境中,企业需要在有限时间内推出高质量的产品,以满足客户不断变化的需求。传统的线性开发模式往往拖慢进度,导致资源浪费和延迟交付。并行开发模型通过允许多个开发阶段同时进行,极大提高了产品开发的效率和响应能力。本文将深入解析并行开发模型,涵盖其类型、步骤及如何通过辅助工具优化团队协作和管理工作流。
560 3
|
机器学习/深度学习 人工智能 算法
DeepSeek技术报告解析:为什么DeepSeek-R1 可以用低成本训练出高效的模型
DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。
1506 11
DeepSeek技术报告解析:为什么DeepSeek-R1 可以用低成本训练出高效的模型
|
自然语言处理
高效团队的秘密:7大团队效能模型解析
3分钟了解7大团队效能模型,有效提升团队绩效。
1638 7
高效团队的秘密:7大团队效能模型解析
|
人工智能 自然语言处理 算法
DeepSeek模型的突破:性能超越R1满血版的关键技术解析
上海AI实验室周伯文团队的最新研究显示,7B版本的DeepSeek模型在性能上超越了R1满血版。该成果强调了计算最优Test-Time Scaling的重要性,并提出了一种创新的“弱到强”优化监督机制的研究思路,区别于传统的“从强到弱”策略。这一方法不仅提升了模型性能,还为未来AI研究提供了新方向。
1708 9
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
949 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
1070 3
|
机器学习/深度学习 存储 人工智能
让模型评估模型:构建双代理RAG评估系统的步骤解析
在当前大语言模型(LLM)应用开发中,评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG(检索增强生成)评估系统,使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程,并展示了基于四种提示工程技术(ReAct、思维链、自一致性和角色提示)的不同结果。实验结果显示,ReAct和思维链技术表现相似,自一致性技术则呈现相反结果,角色提示技术最为不稳定。研究强调了多角度评估的重要性,并提供了系统实现的详细代码。
360 11
让模型评估模型:构建双代理RAG评估系统的步骤解析
|
机器学习/深度学习 搜索推荐 大数据
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
【10月更文挑战第2天】在处理大规模数据集的推荐系统项目时,提高检索模型的召回率成为关键挑战。本文分享了通过改进特征工程(如加入用户活跃时段和物品相似度)和优化模型结构(引入注意力机制)来提升召回率的具体策略与实现代码。严格的A/B测试验证了新模型的有效性,为改善用户体验奠定了基础。这次实践加深了对特征工程与模型优化的理解,并为未来的技术探索提供了方向。
740 2
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
766 1

推荐镜像

更多
  • DNS