一周AI最火论文 | 100%揭穿伪造人脸图像,道高一丈反Deep Fake新方法

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 一周AI最火论文 | 100%揭穿伪造人脸图像,道高一丈反Deep Fake新方法

本周关键词:文本理解、Python、姿势估计

本周最佳学术研究

通用文本理解模型的软件工具包

本文介绍了jiant,这是一个NLP领域的新开源包,它使研究人员可以使用最新的自然语言处理模型对各种自然语言理解任务进行快速实验,并同时支持探测、转移学习和多任务训练的实验。该工具包目前仍处于持续开发阶段。
这个工具基于PyTorch,并使用了AllenNLP和HuggingFace PyTorch转换器包中的许多组件。Jiant目前实现了超过50项自然语言理解任务,包括所有GLUE和SuperGLUE基准测试任务。
作为由配置驱动的框架,jiant使得研究者可以通过简单地编写配置文件来运行各种各样的实验。如果需要添加新功能,也可以轻松地编辑或扩展代码。
这一框架的代码是开源的,开发团队也正在邀请更多人加入开发、公开问题或向本项目提交Pull Request
GitHub:https://github.com/nyu-mll/jiant/原文:https://arxiv.org/abs/2003.02249v1

Python中的机器学习:数据科学,机器学习和人工智能的主要发展和技术趋势

Python因易于学习而广为人知,并且仍然是数据科学、机器学习和科学计算中使用最广泛的语言。KDnuggets最近的一项涉及1,800多名参与者的调查表明,2019年这一领域最广泛使用的语言仍然是Python。image.gif

这篇研究论文旨在向读者介绍当前在使用Python进行机器学习研究中最流行的主题和趋势。研究人员进行了一项调查,深入了解了Python在机器学习领域的应用,并总结了一些重大挑战、分类法和方法。在本文中,他们努力在学术研究和行业主题之间找寻平衡,并同时重点介绍了最相关的工具和软件库。
作为一种易于学习和使用的语言,Python已经发展成为在许多研究和应用领域中流行的语言。随着CPU和GPU计算的发展以及Python用户社区的不断增长,该语言有望在未来许多年内继续成为科学计算机的主流语言。
对于本领域的研究人员来说,该调查涵盖了广泛使用的框架和概念,它们被收集在一起并进行了整体比较,目的是为读者提供最准确的信息并推动Python机器学习领域的发展。
原文:https://arxiv.org/abs/2002.04803v1


使用多任务深度学习的2D / 3D姿势估计和动作识别


在本文中,研究人员提出了一个多任务框架,使用单眼彩色图像估计2D或3D人体姿势,并从视频序列中对人类动作进行分类。
之所以如此,是因为人体姿势估计和动作识别都强烈依赖于人体的表示和分析。但是,仅当涉及到最新技术时,才能分别处理这两个问题。
这项研究现在表明,可以使用一种方法有效地解决这两个问题,并且这一算法在以每秒100帧以上的速度运行时,仍然可以在每个任务上达到最新或相当的结果。
所提出的3D姿势方法提供了对具有低分辨率特征图的高精度估计,并且通过预测每个人体关节的专门深度图,从而不需要价格昂贵的体积热图。
在四个数据集(MPII,Human3.6M,Penn Action和NTU RGB + D)上的运算结果表明该方法在目标任务上表现良好。该方法可以使用混合的2D和3D数据进行训练,这得益于精确的室内3D数据,以及使用手动注释的2D“野外”图像,这证明了3D姿势估计的显著改进。而且,该方法还可以同时以无缝方式用单帧和视频剪辑进行训练。
Demo视频:https://www.youtube.com/watch?v=MNEZACbFA4Y&t=6s代码:https://github.com/dluvizon/deephar原文:https://arxiv.org/abs/1912.08077v2

一个新型检测伪造人脸图片的方法

这些年,由于机器学习和深度学习发展迅猛,假冒数字内容也相应激增。虚假数字内容引起了人们越来越多的关注,并且让大家对图像内容的不信任感日益蔓延。这种需求,导致大家迫切地需要一种自动化的检测伪造图像的技术。
为了区分出哪些是AI生成的假人脸图像,一群德国研究人员最近推出了一种新方法,并且成功地检测出了虚假人脸图片。具体来说,他们提出了一种基于经典频域分析和简单分类的机器学习新方法。
这个方法对特定图像有100%的检测准确度,主要适用范围是GANs两个数据集中高分辨率和中等分辨率的假人脸图片。与需要提供大量标记数据的现有技术水平相比,这个新的技术能在使用很少的带注释的训练样本的情况下,达到非常准确的结果,并且全程完全无监督。
如果能拿到高分辨率的图像,并且不少于20个带注释的样本对这个模型进行训练,这个方法可实现100%的完美检测率。研究人员还将此模型运用于主流的其他假图片集,其准确度也能达到91%。
代码:https://github.com/cc-hpc-itwm/DeepFakeDetection原文:https://arxiv.org/abs/1911.00686v3

把服装转移到3D人体模型身上

将服装自动转移到3D人体模型这个技术,对于人类照片真实感的渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。尽管该领域目前受到的关注不算多,但是仍然有研究人员在努力改进现有的方法。

在这篇论文里,研究人员提出了一种简单而有效的方法,这个方法可以自动将服装图像的正反面纹理实时转换成到3D服装。他们使用的主要方法是,在学习图像到服装的UV贴图的映射时仅仅使用轮廓信息,而无需使用服装的纹理信息。
研究人员首先介绍了他们使用的参数化3D服装模型,以及如何用这些模型来规范自动网格到图像轮廓拟合过程。由于拟合的过程昂贵且容易出错,因此他们用了有效的神经映射(Pix2Surf),来将图像纹理实时传输到网格上。
他们提出的新模型,Pix2Surf,有着明显优于2D TPS翘曲等经典方法的性能。因此,这项工作可以说,在将衣服纹理自动转移到3D服装的研究领域里迈出了巨大的一步。它为未来更强大的应用的诞生(例如虚拟试戴)打开了大门,并允许生成学习时所需的具有各种纹理的3D人体模型。
这项技术对于人类的真实感渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。
原文:https://arxiv.org/abs/2003.02050v1

其他爆款论文

深度学习在自然语言处理方面的进展:https://arxiv.org/abs/2003.01200v1

简介:本研究对受益于深度学习的NLP的不同方面和应用进行了分类和处理。它涵盖了NLP的核心任务和应用程序,并描述了深度学习方法和模型如何推动这些领域的发展。
非Markov任务的交互式机器人培训:https://arxiv.org/abs/2003.02232v1
简介:在论文中,研究员提出了一种贝叶斯交互式机器人训练框架,该框架允许机器人从老师提供的演示中学习,并让老师对机器人的任务执行情况进行评估。受不确定性抽样的启发,他们还提出了一种新的主动学习方法来识别那些可接受性低的任务。论文证明了,与仅从演示中学习的方法相比,在新框架内进行的主动学习,可以在更大程度上确定教师的预期任务说明。

一个用于自动要素工程和选择的Python库:https://arxiv.org/abs/1901.07329v4
简介:它提供了一个多步骤的特征工程和选择过程:先生成大量的非线性特征,然后从中选择一小组健壮的有意义的特征。这么做能在提高线性模型的预测精度上,保留其可解释性。

数据集

用于机器人的大型RGB-D数据集,这个数据集可以用于识别老年人的日常活动:https://arxiv.org/abs/2003.01920v1

AI大事件

最热门开发人员职位:https://www.zdnet.com/article/developer-jobs-these-are-the-coders-who-are-most-in-demand/
计算机科学家防黑客共享密钥的新武器:https://www.sciencedaily.com/releases/2020/02/200227072508.htm
数据和人工智能将为沙特阿拉伯经济带来超过100亿美元的价值: https://finance.yahoo.com/news/data-ai-add-more-usd-112400061.html

Google DeepMind在COVID-19冠状病毒研究上的贡献:https://www.zdnet.com/article/google-deepminds-effort-on-covid-19-coronavirus-rests-on-the-shoulders-of-giants/


相关文章
|
12天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
102 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
12天前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
153 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
8天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
116 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
1月前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
210 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
251 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
27天前
|
人工智能 编解码 自然语言处理
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
64 6
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
|
1月前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
102 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
2月前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
114 29
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
1月前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
86 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
1月前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
77 27

热门文章

最新文章