本周关键词:文本理解、Python、姿势估计
本周最佳学术研究
通用文本理解模型的软件工具包
本文介绍了jiant,这是一个NLP领域的新开源包,它使研究人员可以使用最新的自然语言处理模型对各种自然语言理解任务进行快速实验,并同时支持探测、转移学习和多任务训练的实验。该工具包目前仍处于持续开发阶段。
这个工具基于PyTorch,并使用了AllenNLP和HuggingFace PyTorch转换器包中的许多组件。Jiant目前实现了超过50项自然语言理解任务,包括所有GLUE和SuperGLUE基准测试任务。
作为由配置驱动的框架,jiant使得研究者可以通过简单地编写配置文件来运行各种各样的实验。如果需要添加新功能,也可以轻松地编辑或扩展代码。
这一框架的代码是开源的,开发团队也正在邀请更多人加入开发、公开问题或向本项目提交Pull Request
GitHub:https://github.com/nyu-mll/jiant/原文:https://arxiv.org/abs/2003.02249v1
Python中的机器学习:数据科学,机器学习和人工智能的主要发展和技术趋势
Python因易于学习而广为人知,并且仍然是数据科学、机器学习和科学计算中使用最广泛的语言。KDnuggets最近的一项涉及1,800多名参与者的调查表明,2019年这一领域最广泛使用的语言仍然是Python。
这篇研究论文旨在向读者介绍当前在使用Python进行机器学习研究中最流行的主题和趋势。研究人员进行了一项调查,深入了解了Python在机器学习领域的应用,并总结了一些重大挑战、分类法和方法。在本文中,他们努力在学术研究和行业主题之间找寻平衡,并同时重点介绍了最相关的工具和软件库。
作为一种易于学习和使用的语言,Python已经发展成为在许多研究和应用领域中流行的语言。随着CPU和GPU计算的发展以及Python用户社区的不断增长,该语言有望在未来许多年内继续成为科学计算机的主流语言。
对于本领域的研究人员来说,该调查涵盖了广泛使用的框架和概念,它们被收集在一起并进行了整体比较,目的是为读者提供最准确的信息并推动Python机器学习领域的发展。
原文:https://arxiv.org/abs/2002.04803v1
使用多任务深度学习的2D / 3D姿势估计和动作识别
在本文中,研究人员提出了一个多任务框架,使用单眼彩色图像估计2D或3D人体姿势,并从视频序列中对人类动作进行分类。
之所以如此,是因为人体姿势估计和动作识别都强烈依赖于人体的表示和分析。但是,仅当涉及到最新技术时,才能分别处理这两个问题。
这项研究现在表明,可以使用一种方法有效地解决这两个问题,并且这一算法在以每秒100帧以上的速度运行时,仍然可以在每个任务上达到最新或相当的结果。
所提出的3D姿势方法提供了对具有低分辨率特征图的高精度估计,并且通过预测每个人体关节的专门深度图,从而不需要价格昂贵的体积热图。
在四个数据集(MPII,Human3.6M,Penn Action和NTU RGB + D)上的运算结果表明该方法在目标任务上表现良好。该方法可以使用混合的2D和3D数据进行训练,这得益于精确的室内3D数据,以及使用手动注释的2D“野外”图像,这证明了3D姿势估计的显著改进。而且,该方法还可以同时以无缝方式用单帧和视频剪辑进行训练。
Demo视频:https://www.youtube.com/watch?v=MNEZACbFA4Y&t=6s代码:https://github.com/dluvizon/deephar原文:https://arxiv.org/abs/1912.08077v2
一个新型检测伪造人脸图片的方法
这些年,由于机器学习和深度学习发展迅猛,假冒数字内容也相应激增。虚假数字内容引起了人们越来越多的关注,并且让大家对图像内容的不信任感日益蔓延。这种需求,导致大家迫切地需要一种自动化的检测伪造图像的技术。
为了区分出哪些是AI生成的假人脸图像,一群德国研究人员最近推出了一种新方法,并且成功地检测出了虚假人脸图片。具体来说,他们提出了一种基于经典频域分析和简单分类的机器学习新方法。
这个方法对特定图像有100%的检测准确度,主要适用范围是GANs两个数据集中高分辨率和中等分辨率的假人脸图片。与需要提供大量标记数据的现有技术水平相比,这个新的技术能在使用很少的带注释的训练样本的情况下,达到非常准确的结果,并且全程完全无监督。
如果能拿到高分辨率的图像,并且不少于20个带注释的样本对这个模型进行训练,这个方法可实现100%的完美检测率。研究人员还将此模型运用于主流的其他假图片集,其准确度也能达到91%。
代码:https://github.com/cc-hpc-itwm/DeepFakeDetection原文:https://arxiv.org/abs/1911.00686v3
把服装转移到3D人体模型身上
将服装自动转移到3D人体模型这个技术,对于人类照片真实感的渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。尽管该领域目前受到的关注不算多,但是仍然有研究人员在努力改进现有的方法。
在这篇论文里,研究人员提出了一种简单而有效的方法,这个方法可以自动将服装图像的正反面纹理实时转换成到3D服装。他们使用的主要方法是,在学习图像到服装的UV贴图的映射时仅仅使用轮廓信息,而无需使用服装的纹理信息。
研究人员首先介绍了他们使用的参数化3D服装模型,以及如何用这些模型来规范自动网格到图像轮廓拟合过程。由于拟合的过程昂贵且容易出错,因此他们用了有效的神经映射(Pix2Surf),来将图像纹理实时传输到网格上。
他们提出的新模型,Pix2Surf,有着明显优于2D TPS翘曲等经典方法的性能。因此,这项工作可以说,在将衣服纹理自动转移到3D服装的研究领域里迈出了巨大的一步。它为未来更强大的应用的诞生(例如虚拟试戴)打开了大门,并允许生成学习时所需的具有各种纹理的3D人体模型。
这项技术对于人类的真实感渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。
原文:https://arxiv.org/abs/2003.02050v1
其他爆款论文
深度学习在自然语言处理方面的进展:https://arxiv.org/abs/2003.01200v1
简介:本研究对受益于深度学习的NLP的不同方面和应用进行了分类和处理。它涵盖了NLP的核心任务和应用程序,并描述了深度学习方法和模型如何推动这些领域的发展。
非Markov任务的交互式机器人培训:https://arxiv.org/abs/2003.02232v1
简介:在论文中,研究员提出了一种贝叶斯交互式机器人训练框架,该框架允许机器人从老师提供的演示中学习,并让老师对机器人的任务执行情况进行评估。受不确定性抽样的启发,他们还提出了一种新的主动学习方法来识别那些可接受性低的任务。论文证明了,与仅从演示中学习的方法相比,在新框架内进行的主动学习,可以在更大程度上确定教师的预期任务说明。
一个用于自动要素工程和选择的Python库:https://arxiv.org/abs/1901.07329v4
简介:它提供了一个多步骤的特征工程和选择过程:先生成大量的非线性特征,然后从中选择一小组健壮的有意义的特征。这么做能在提高线性模型的预测精度上,保留其可解释性。
数据集
用于机器人的大型RGB-D数据集,这个数据集可以用于识别老年人的日常活动:https://arxiv.org/abs/2003.01920v1
AI大事件
最热门开发人员职位:https://www.zdnet.com/article/developer-jobs-these-are-the-coders-who-are-most-in-demand/
计算机科学家防黑客共享密钥的新武器:https://www.sciencedaily.com/releases/2020/02/200227072508.htm
数据和人工智能将为沙特阿拉伯经济带来超过100亿美元的价值: https://finance.yahoo.com/news/data-ai-add-more-usd-112400061.html
Google DeepMind在COVID-19冠状病毒研究上的贡献:https://www.zdnet.com/article/google-deepminds-effort-on-covid-19-coronavirus-rests-on-the-shoulders-of-giants/