一周AI最火论文 | 还不敢出门逛街?史上最逼真虚拟试穿了解一下!

简介: 一周AI最火论文 | 还不敢出门逛街?史上最逼真虚拟试穿了解一下!

本周关键词:对象跟踪、虚假新闻检测、医学图像python库

本周最佳学术研究

用于细粒度伪新闻检测多模式基准数据集

新闻报道,社会圈子以及其他形式的信息消费中的虚假新闻传播日益增加,对社会文化产生了负面影响。

处理假新闻传播的一种方法是使用机器学习分类模型。但是,该方法缺乏全面且有效的数据集来进行假新闻研究检测的模型开发。

为了应对这一挑战,研究人员现已发布了一个新的虚假新闻检测数据集Fakeddit。该数据集来自多个子reddit,包含一百万个带有2向,3向和6向分类标签的样本,以及评论数据和元数据。
与以前的数据集不同,Fakeddit提供了大量带有多个标签的多峰样本,用于各种级别的细粒度分类。因此,它可以帮助将假新闻研究扩展到多模式空间,并允许研究人员开发更强大,更通用,更细粒度的假新闻检测系统。

这一数据集在假新闻研究中具有广泛的实用性,可进行高级别和细粒度的假新闻分类并可以应用在其他研究领域。

Github链接:https://github.com/entitize/fakeddit原文:https://arxiv.org/abs/1911.03854v2

用于医学图像有效加载,预处理,增强和基于补丁采样的深度学习Python库

本文介绍了TorchIO,这是一个开放源代码的Python库,用于在使用PyTorch编写的深度学习应用中进行有效读取,采样和写入3D医学图像,包括用于数据增强和预处理的强度和空间变换的一系列工具。

该库遵循PyTorch的设计,并依靠标准医学图像处理库(例如SimpleITK或NiBabel),在卷积神经网络上实现了有效处理大型3D图像。研究人员为医学图像的预处理和增强提供了多种通用以及磁共振成像的特定操作。

在训练CNN时,TorchIO可以有效地处理医学成像数据。它以深度学习框架PyTorch的样式进行设计,提供了医学成像特定功能,例如图像重新定向和MRI伪影仿真的数据增强等。

研究人员计划将预处理和扩增转换扩展到不同的医学成像模式,例如CT或US。他们期待通过GitHub或邮件获取反馈,功能请求以及对该库的贡献。

Github链接:https://github.com/fepegar/torchio原文:https://arxiv.org/abs/2003.04696v1

ReZero,满足你的一切所需:超级深度下的快速收敛

最近发布的这篇论文提出了ReZero(零初始化残差),这是一种简单的体系结构修改,可促进深度网络中的信号传播并帮助网络保持动态等距。研究人员将该技术应用于语言建模,发现他们可以轻松地在一百层上训练ReZero-Transformer网络。

即使在各个层的Jacobian值都消失了的情况下,架构修改也可以训练深度网络,例如ReLU激活功能或自我关注。该技术还允许我们向现有和经过训练的网络添加任意新的层。

研究人员能够有效地训练具有数百层结构的“变形金刚”,这对于原始体系结构来说是很难的。当应用于12层转换器时,ReZero在enwiki8上的收敛速度提高了56%。ReZero还可以应用于其他残差网络,使深度完全连接的网络融合速度变快15倍,而在CIFAR 10上接受培训的ResNet-56融合速度则提高了32%。

原文:

https://arxiv.org/abs/2003.04887v1


实时3D多对象跟踪器和新的大规模数据集

本文介绍了一种新型3D MOT系统JRMOT,它将2D RGB图像和3D点云的信息集成到实时执行框架中。该系统利用了基于神经网络的再识别以及2D和3D检测和描述符的先进性。

研究人员将其纳入多模态递归卡尔曼架构中的联合概率数据关联框架中,以实现在线实时3D MOT。

研究还提出了一个新的JRDB大规模2D + 3D数据集及基准,其中标注了超过200万个框和3500条一致的2D + 3D轨迹,经过了54个室内和室外场景。该数据集包含60分钟以上的数据,包括圆柱体360度RGB视频和3D点云。

JRMOT在著名的KITTI 2D MOT基准中达到了最先进的性能,并且在我们提供的JRDB数据集中表现出比现有3D MOT系统更好的性能。研究人员已经进行了初步的机器人实验来验证JRMOT的有效性。

此外,我们在社交机器人JackRabbot上的测试表明,该系统能够快速可靠地跟踪多个行人。

追踪器代码:https://sites.google.com/view/jrmot原文:https://arxiv.org/abs/2002.08397v2

走向真实的虚拟试穿

当试穿人的身体被大的物体和人体姿势遮挡时,生成逼真的试穿图像仍然是一个巨大的挑战。为了解决这个问题,本文提出了一种新的可视试穿网络,名为自适应内容生成和保留网络(ACGPN)。

ACGPN预测试穿后将更改的参考图像的语义布局,然后根据预测的语义布局确定是否需要生成或保留其图像内容,从而得到逼真的试穿效果和丰富的服装细节。然后,服装变形模块根据所生成的语义布局来改变服装图像。最后,用于内容融合的修复模块将所有信息(例如参考图像,语义布局和变形的衣服)整合在一起,以自适应地产生人体的每个语义部分。

研究人员在VITON数据集上对ACGPN进行了三个难度级别的试穿评估。结果表明,在定量指标、视觉质量和用户研究等方面,ACGPN均优于此前最先进的方法。

通过使用三个精心设计的模块,即遮罩生成模块(GMM)、服装变形模块(CWM)和内容融合模块(CFM),ACGPN可以生成具有更好的感知质量和更丰富细节的逼真图像。

原文:https://arxiv.org/abs/2003.05863v1

其他爆款论文

最新HOI检测mAP,用于HICO-DET数据集:https://arxiv.org/abs/2001.02302v3

关于机器学习在智能光学网络中应用的综合调查:https://arxiv.org/abs/2003.05290v1

级联人物体交互识别模型,在ICCV2019关联人员挑战赛的关系检测和细分任务中均排名第一:https://arxiv.org/abs/2003.04262v2

Gated2Depth框架的拓展——用于3D重建的门控图像不确定性深度估计:https://arxiv.org/abs/2003.05122v1

基于社交线索对可解释代理的最新现状回顾:https://arxiv.org/abs/2003.05251v1

AI大事件

AI或可消除定制化的设计需求,面对自动化你的工作安全吗?https://interestingengineering.com/ai-could-eliminate-the-need-for-custom-designs

算法可以检测感染,将COVID-19与普通流感区分开来https://onezero.medium.com/computer-scientists-are-building-algorithms-to-tackle-covid-19-f4ec40acdba0

Python是如何统治AI世界的https://insidebigdata.com/2020/03/13/the-impact-of-python-how-it-could-rule-the-ai-world/

微软研究人员与来自十二家科技公司的ML从业人员创建了AI伦理清单https://venturebeat.com/2020/03/10/microsoft-researchers-create-ai-ethics-checklist-with-ml-practitioners-from-a-dozen-tech-companies/?utm_campaign=AI%20Weekly&utm_medium=email&utm_source=Revue%20newsletter

如何在2020年成为数据科学家

https://insidebigdata.com/2020/03/14/infographic-how-to-become-a-data-scientist-in-2020/



相关文章
|
6月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
131 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
30天前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
82 9
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
2月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
48 4
|
2月前
|
人工智能 计算机视觉
AI计算机视觉笔记九:基于mediapipe的钢铁侠操作(虚拟拖拽)
这段代码演示了如何使用OpenCV和MediaPipe库在视频流中实现虚拟物体的拖放功能,模拟了类似钢铁侠电影中的高科技操作界面。具体步骤包括读取视频流、获取手指关键点坐标、计算手指间距离,并判断食指是否位于虚拟方块内。如果手指位于方块内,则更新方块的位置,实现拖放效果。代码提供了详细的实现过程,包括关键点识别、坐标计算及方块绘制等。此外,还提供了半透明效果处理,使视觉效果更加逼真。整个项目基于Mediapipe环境搭建,适合初学者学习计算机视觉应用开发。
39 10
|
2月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记八:基于mediapipe的虚拟绘画
该项目利用MediaPipe手部关键点识别技术,实现了隔空绘画功能。用户可以通过手势控制绘画工具,选择颜色或橡皮擦。环境配置基于`mediapipe_env`,在PyCharm中运行。项目包括两个文件:`AiVirtualPainter.py`负责绘画逻辑,`HandTrackingModule.py`用于手部关键点检测。此项目展示了AI技术在互动应用中的潜力,适合初学者实践与学习。
66 10
|
2月前
|
人工智能 计算机视觉 C++
AI计算机视觉笔记七:基于mediapipe的虚拟鼠标控制
该项目旨在通过摄像头识别手指动作以实现鼠标控制。利用mediapipe检测手指关键点,并通过食指移动鼠标,当食指与中指距离小于阈值时触发点击事件。环境基于miniconda3,需创建虚拟环境并安装mediapipe、numpy、autopy和opencv等依赖。代码分为`AiVirtualMouse.py`和`HandTrackingModule.py`两个部分,前者用于实现鼠标控制逻辑,后者提供手势检测功能。运行时可能出现`PacketInvoked`错误,需修改`solution_base.py`文件第595行以解决。
|
6月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
95 1
|
6月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
86 3
|
6月前
|
机器学习/深度学习 人工智能
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
146 11

热门文章

最新文章