一周AI最火论文 | 分离听不清的七嘴八舌,只需一张面部快照

简介: 一周AI最火论文 | 分离听不清的七嘴八舌,只需一张面部快照

本周关键词:GANs、Julia+R、AI数据库

本周最火学术研究

FaR-GAN单次面部重现

随着生成模型,尤其是生成对抗网络(GAN),在计算机视觉中的快速发展,人们越来越关注具有挑战性的任务,例如生成逼真的照片,图像到图像翻译,文本到图像翻译以及超分辨率等。

面部重现是这些具有挑战性的任务之一,它需要对面部的几何形状和运动进行3D建模。它在图像编辑,增强和交互式系统中具有许多应用,例如使用自然的人体姿势/表情为屏幕上的主体设置动画。

这篇文章在以下几个方面做出了贡献:

开发一种基于GAN的方法,解决单次面部重现的任务
所提出的的FaR-GAN能够组合外观和表情信息进行有效的面部建模
与对照方法相比,通过本方法产生的重新成像图像具有更高的图像质量

原文:
https://arxiv.org/pdf/2005.06402v1.pdf

JuliaConnectoR:将Julia集成到R中

就像许多考虑使用新编程语言Julia的小组一样,一些程序员也面临着从R访问他们在Julia中开发的算法的挑战。为解决此问题,他们开发了R包JuliaConnectoR。

为了可维护性和稳定性,他们基于TCP,使用优化的二进制格式交换数据。该软件包还专门包含允许在R中方便交互使用的功能。这便于使用Julia轻松开发R扩展或简单地从R中调取Julia软件包。

通过其面向功能的设计,JuliaConnectoR避免了在R工作区中不可见的Julia状态,从而实现了简洁的编程风格。研究人员通过代码示例进一步说明了程序包的功能,并讨论了相比替代程序包JuliaCall和XRJulia的优势。最后,通过使用备受关注的最新深度学习技术领域的神经常微分方程,他们用更广泛的示例来演示了该程序包的用法。该示例还为将Julia的深度学习技术集成到R中提供了更普遍的指导。

Github:
https://github.com/stefan-m-lenz/JuliaConnectoR
原文:
https://arxiv.org/abs/2005.06334v1

实现视听语音分离,你只需要一张静止图像

韩国研究人员在本文中提出了一种新的视听语音增强方法,该方法可以通过使用面部图像表示的条件嵌入,将特定说话者与其他说话者同时产生的语音隔离开来。

与使用视频剪辑上的嘴唇移动或预先注册的演讲者信息作为辅助条件的传统方法不同,该方法只需要目标演讲者的单幅面部图像。

通过自我监督,可以从潜在空间中的面部图像检索说话者,然后将其用于调节语音增强网络。这种方法克服了纯音频源分离中不可避免的置换问题,并始终根据目标身份重建语音。实验结果证实了其在语音增强任务上的有效性。

视频示例:
https://www.youtube.com/watch?v=ku9xoLh62E4&feature=youtu.be
原文:
https://arxiv.org/abs/2005.07074v1

Google AI:发布大型AI数据库

Google AI日前发布了一个大型数据库,这将很有可能成为训练和评估模型的新基准。这个复合型数据集由各种数据集组成,并提出了更为现实的任务。它由10个可公开获得的自然图像(包括ImageNet,CUB-200-2011,Fungi等)、手写字符和涂鸦数据集组成。

这个项目的研究人员尝试了流行的基准和大型数据集上的元学习,以及他们其中的的对抗性方法。他们根据测试任务的各种特征来分析性能,并检查模型利用各种多样化的数据来改善其概括性的能力。他们还提出了一组新的基线,用于增强量化元数据集中的元学习。经过广泛的研究和实验,他们发现了具有重要价值的方向性难点,适用于未来的研究。

演示如何在TensorFlow和PyTorch中使用元数据集的笔记本可以在此处访问:
https://github.com/google-research/meta-dataset/blob/master/Intro_to_Metadataset.ipynb

代码:
https://storage.googleapis.com/meta-dataset-source-code/meta-dataset-iclr2020.tar.gz

原文:
https://openreview.net/attachment?id=rkgAGAVKPr&name=original_pdf

一个通用文本解析模型的软件工具包

此工具包由jiant于3月首次推出,是一种开源工具包,适用于对英语NLU任务进行多任务和转移学习实验。Jiant在最近进行了更新,新版本中提供了一个配置驱动的界面,该界面使用一组包含50多种NLU任务,混合最有效的句子编码器模型以及多任务、多阶段的训练方法,来定义转换学习、演示学习实验等。

此外,开发人员证明了jiant拥有能够实现各种NLU任务上较优的性能。jiant的任务和句子编码器组件的模块化设计,使得用户无需编辑源代码即可快速轻松地尝试大量任务,模型和参数的配置。

jiant的设计还使添加新任务变得容易,并且它的体系结构使扩展jiant来支持新的句子编码器变得更简单。研究人员还证明了,jiant可以在BERT和RoBERTa等各种任务和模型里,实现较优的性能。

jiant代码是开源的,他们邀请贡献者在Github上的jiant项目库中,提交问题或申请提交代码修复问题:
https://github.com/nyu-mll/jiant
原文:
https://arxiv.org/abs/2003.02249v2

其他爆款论文

一个生物医学机器阅读理解的数据库,BIOMRC:
https://arxiv.org/abs/2005.06376v1

一种开放式机器人学习方法, DREAM架构:
https://arxiv.org/abs/2005.06223v1

人工智能和机器人应用中行为树的综合研究:
https://arxiv.org/abs/2005.05842v2

S2IGAN:通过对抗性学习生成语音到图像:
https://arxiv.org/abs/2005.06968v1

规范可能无法解释的深度学习中隐式正则化:
https://arxiv.org/abs/2005.06398v1

AI大事件

全球最复杂的主板,安培(Ampere)为大型AI模型提供动能:
https://www.zdnet.com/article/nvidias-ampere-plus-worlds-most-complex-motherboard-will-fuel-gigantic-ai-models/

Kite开发的的AI自动代码完成工具,现已适用于更多语言:
https://www.zdnet.com/article/javascript-programming-language-developers-this-is-kites-new-free-ai-code-completion-tool/

索尼:创建世界上第一个内置AI的图像传感器:
https://www.bloomberg.com/news/articles/2020-05-14/sony-builds-ai-into-latest-image-sensor

NVIDIA最新的AI超级计算机加入了对抗COVID-19大军:
https://www.engadget.com/nvidia-gtc-2020-ai-health-covid-19-130031390.html

Adobe的Experience Cloud推出了新的智能服务,旨在帮助企业使用AI对数据集进行预测建模:
https://www.zdnet.com/article/adobe-intros-new-intelligent-services-for-experience-cloud/

相关文章
|
7月前
|
机器学习/深度学习 人工智能 安全
【论文速递】CSET - 小数据的大AI潜力
【论文速递】CSET - 小数据的大AI潜力
59 0
|
人工智能
【AI绘画】ControlNet 之 Reference only 锁定面部跑图
【AI绘画】ControlNet 之 Reference only 锁定面部跑图
900 0
|
2月前
|
人工智能 开发者
FacePoke:AI时代的面部表情编辑新体验
**FacePoke** 是一款引人注目的开源工具,利用先进的人工智能技术,让用户通过简单的拖拽界面实时编辑面部表情。它支持实时编辑与动画,提供直观的操作体验,适用于艺术项目、视频制作和社交内容等多种场景。FacePoke 的开源特性还允许开发者自由修改和扩展功能。无论是艺术家还是内容创作者,都能轻松提升数字内容的情感表达。
|
3月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
64 4
|
6月前
|
人工智能 Python Shell
CodeFormer——AI驱动的面部图像修复与增强
CodeFormer是由南洋理工大学和商汤科技联合研发的AI人脸复原模型,结合VQGAN和Transformer技术,能从模糊或马赛克图像中生成清晰图像。它具备老照片修复、黑白照片彩色化、马赛克修复和低码率视频增强等功能。安装过程涉及miniconda3、Python环境配置、相关库的安装及模型训练数据下载。在测试视频增强时,虽然初期遇到ffmpeg导入问题,但通过安装ffmpeg-python得以解决,不过CPU占用率高。此外,还展示了对图片进行增强的命令行操作及结果示例。
|
7月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
103 1
|
7月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
95 3
|
7月前
|
机器学习/深度学习 人工智能
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
169 11
|
7月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
100 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
7月前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
232 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
下一篇
DataWorks