一周AI最火论文 | 100%揭穿伪造人脸图像,道高一丈反Deep Fake新方法

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 一周AI最火论文 | 100%揭穿伪造人脸图像,道高一丈反Deep Fake新方法

本周关键词:文本理解、Python、姿势估计

本周最佳学术研究

通用文本理解模型的软件工具包

本文介绍了jiant,这是一个NLP领域的新开源包,它使研究人员可以使用最新的自然语言处理模型对各种自然语言理解任务进行快速实验,并同时支持探测、转移学习和多任务训练的实验。该工具包目前仍处于持续开发阶段。
这个工具基于PyTorch,并使用了AllenNLP和HuggingFace PyTorch转换器包中的许多组件。Jiant目前实现了超过50项自然语言理解任务,包括所有GLUE和SuperGLUE基准测试任务。
作为由配置驱动的框架,jiant使得研究者可以通过简单地编写配置文件来运行各种各样的实验。如果需要添加新功能,也可以轻松地编辑或扩展代码。
这一框架的代码是开源的,开发团队也正在邀请更多人加入开发、公开问题或向本项目提交Pull Request
GitHub:https://github.com/nyu-mll/jiant/原文:https://arxiv.org/abs/2003.02249v1

Python中的机器学习:数据科学,机器学习和人工智能的主要发展和技术趋势

Python因易于学习而广为人知,并且仍然是数据科学、机器学习和科学计算中使用最广泛的语言。KDnuggets最近的一项涉及1,800多名参与者的调查表明,2019年这一领域最广泛使用的语言仍然是Python。image.gif

这篇研究论文旨在向读者介绍当前在使用Python进行机器学习研究中最流行的主题和趋势。研究人员进行了一项调查,深入了解了Python在机器学习领域的应用,并总结了一些重大挑战、分类法和方法。在本文中,他们努力在学术研究和行业主题之间找寻平衡,并同时重点介绍了最相关的工具和软件库。
作为一种易于学习和使用的语言,Python已经发展成为在许多研究和应用领域中流行的语言。随着CPU和GPU计算的发展以及Python用户社区的不断增长,该语言有望在未来许多年内继续成为科学计算机的主流语言。
对于本领域的研究人员来说,该调查涵盖了广泛使用的框架和概念,它们被收集在一起并进行了整体比较,目的是为读者提供最准确的信息并推动Python机器学习领域的发展。
原文:https://arxiv.org/abs/2002.04803v1


使用多任务深度学习的2D / 3D姿势估计和动作识别


在本文中,研究人员提出了一个多任务框架,使用单眼彩色图像估计2D或3D人体姿势,并从视频序列中对人类动作进行分类。
之所以如此,是因为人体姿势估计和动作识别都强烈依赖于人体的表示和分析。但是,仅当涉及到最新技术时,才能分别处理这两个问题。
这项研究现在表明,可以使用一种方法有效地解决这两个问题,并且这一算法在以每秒100帧以上的速度运行时,仍然可以在每个任务上达到最新或相当的结果。
所提出的3D姿势方法提供了对具有低分辨率特征图的高精度估计,并且通过预测每个人体关节的专门深度图,从而不需要价格昂贵的体积热图。
在四个数据集(MPII,Human3.6M,Penn Action和NTU RGB + D)上的运算结果表明该方法在目标任务上表现良好。该方法可以使用混合的2D和3D数据进行训练,这得益于精确的室内3D数据,以及使用手动注释的2D“野外”图像,这证明了3D姿势估计的显著改进。而且,该方法还可以同时以无缝方式用单帧和视频剪辑进行训练。
Demo视频:https://www.youtube.com/watch?v=MNEZACbFA4Y&t=6s代码:https://github.com/dluvizon/deephar原文:https://arxiv.org/abs/1912.08077v2

一个新型检测伪造人脸图片的方法

这些年,由于机器学习和深度学习发展迅猛,假冒数字内容也相应激增。虚假数字内容引起了人们越来越多的关注,并且让大家对图像内容的不信任感日益蔓延。这种需求,导致大家迫切地需要一种自动化的检测伪造图像的技术。
为了区分出哪些是AI生成的假人脸图像,一群德国研究人员最近推出了一种新方法,并且成功地检测出了虚假人脸图片。具体来说,他们提出了一种基于经典频域分析和简单分类的机器学习新方法。
这个方法对特定图像有100%的检测准确度,主要适用范围是GANs两个数据集中高分辨率和中等分辨率的假人脸图片。与需要提供大量标记数据的现有技术水平相比,这个新的技术能在使用很少的带注释的训练样本的情况下,达到非常准确的结果,并且全程完全无监督。
如果能拿到高分辨率的图像,并且不少于20个带注释的样本对这个模型进行训练,这个方法可实现100%的完美检测率。研究人员还将此模型运用于主流的其他假图片集,其准确度也能达到91%。
代码:https://github.com/cc-hpc-itwm/DeepFakeDetection原文:https://arxiv.org/abs/1911.00686v3

把服装转移到3D人体模型身上

将服装自动转移到3D人体模型这个技术,对于人类照片真实感的渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。尽管该领域目前受到的关注不算多,但是仍然有研究人员在努力改进现有的方法。

在这篇论文里,研究人员提出了一种简单而有效的方法,这个方法可以自动将服装图像的正反面纹理实时转换成到3D服装。他们使用的主要方法是,在学习图像到服装的UV贴图的映射时仅仅使用轮廓信息,而无需使用服装的纹理信息。
研究人员首先介绍了他们使用的参数化3D服装模型,以及如何用这些模型来规范自动网格到图像轮廓拟合过程。由于拟合的过程昂贵且容易出错,因此他们用了有效的神经映射(Pix2Surf),来将图像纹理实时传输到网格上。
他们提出的新模型,Pix2Surf,有着明显优于2D TPS翘曲等经典方法的性能。因此,这项工作可以说,在将衣服纹理自动转移到3D服装的研究领域里迈出了巨大的一步。它为未来更强大的应用的诞生(例如虚拟试戴)打开了大门,并允许生成学习时所需的具有各种纹理的3D人体模型。
这项技术对于人类的真实感渲染、综合性数据学习、虚拟试穿、艺术和设计的数据生成非常有用。
原文:https://arxiv.org/abs/2003.02050v1

其他爆款论文

深度学习在自然语言处理方面的进展:https://arxiv.org/abs/2003.01200v1

简介:本研究对受益于深度学习的NLP的不同方面和应用进行了分类和处理。它涵盖了NLP的核心任务和应用程序,并描述了深度学习方法和模型如何推动这些领域的发展。
非Markov任务的交互式机器人培训:https://arxiv.org/abs/2003.02232v1
简介:在论文中,研究员提出了一种贝叶斯交互式机器人训练框架,该框架允许机器人从老师提供的演示中学习,并让老师对机器人的任务执行情况进行评估。受不确定性抽样的启发,他们还提出了一种新的主动学习方法来识别那些可接受性低的任务。论文证明了,与仅从演示中学习的方法相比,在新框架内进行的主动学习,可以在更大程度上确定教师的预期任务说明。

一个用于自动要素工程和选择的Python库:https://arxiv.org/abs/1901.07329v4
简介:它提供了一个多步骤的特征工程和选择过程:先生成大量的非线性特征,然后从中选择一小组健壮的有意义的特征。这么做能在提高线性模型的预测精度上,保留其可解释性。

数据集

用于机器人的大型RGB-D数据集,这个数据集可以用于识别老年人的日常活动:https://arxiv.org/abs/2003.01920v1

AI大事件

最热门开发人员职位:https://www.zdnet.com/article/developer-jobs-these-are-the-coders-who-are-most-in-demand/
计算机科学家防黑客共享密钥的新武器:https://www.sciencedaily.com/releases/2020/02/200227072508.htm
数据和人工智能将为沙特阿拉伯经济带来超过100亿美元的价值: https://finance.yahoo.com/news/data-ai-add-more-usd-112400061.html

Google DeepMind在COVID-19冠状病毒研究上的贡献:https://www.zdnet.com/article/google-deepminds-effort-on-covid-19-coronavirus-rests-on-the-shoulders-of-giants/


相关文章
|
3天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
34 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
8天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
87 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
11天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
52 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
11天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
52 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
18天前
|
机器学习/深度学习 人工智能 编解码
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
61 10
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
|
17天前
|
Web App开发 机器学习/深度学习 人工智能
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。
58 7
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
93 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
22天前
|
人工智能 JavaScript 数据可视化
深入探索 Flux Tools 在 AI 图像创作中的强大功能
Flux Tools 是由 Black Forest Labs 开发的一套先进 AI 图像编辑工具,集成了修补、扩展、深度映射和边缘检测等功能,为用户提供高精度的图像控制能力,广泛应用于照片编辑、数字艺术创作和设计工作等领域,极大提升了创作效率与自由度。
|
25天前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
68 4
|
25天前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
28 2