本周关键词:深度学习、3D对象跟踪、机器翻译
本周最佳学术研究
蒙娜丽莎在现实生活中看起来如何?一个可以“放大”图像的AI模型
一组研究人员最近提出了一种新的超分辨率算法,该算法可以以研究中从未见过的分辨率生成高分辨率,逼真的图像。所有这些操作都是通过无监督的方法完成的,从而无需对成对的LR-HR图像数据集进行训练。
基本上,AI扩展使用了一个深度学习模型,该模型以低分辨率(LR)图像作为输入并预测高分辨率(HR)图像,该图像将缩小为原始的低分辨率图像。
研究人员使用了一个名为PULSE的新模型,而不是从LR图像开始并逐渐添加细节。在新模型中,PULSE遍历高分辨率的自然图像,搜索能缩小到原始LR图的图像。这是通过“按比例缩小损失”来形式化的,在搜索时运用了潜在空间的生成模型。这篇论文中包括了很多的应用数据,证明了该方法在人脸超分辨率领域的有效性。研究人员还讨论了该方法的局限性和偏见。
观看视频:
https://www.youtube.com/watch?v=CSoHaO3YqH8&feature=youtu.be
GitHub:
https://github.com/adamian98/pulse
原文:
https://drive.google.com/file/d/1fV7FsmunjDuRrsn4KYf2Efwp0FNBtcR4/view
用RepNet计算视频中的重复次数
在本文中,Google和Deep Mind的研究人员演示了,将综合训练数据进行简单组合,以及使用时间自相似性的体系结构,从而产生了功能强大的与类无关的重复计数模型RepNet。
RepNet成功地检测了周期性并预测了对各种对象,动物和人类中不同角色的数量,并且对大量视频进行了评估。该模型解决了简单重复的情况,下一步则是考虑更复杂的情况,例如对多个同时重复的信号进行检测或者检测类似舞蹈和音乐中的重复片段等。
RepNet是一个单一模型,可以计算来自许多不同域的重复次数,也可以用于监视重复活动的速度变化。
一个生成用于深度学习的高性能Tensor程序
深度学习生态系统正在拥抱硬件平台(包括CPU,GPU,FPGA和ASIC)的快速增长,为了在这些平台上部署DNN,DNN中使用的运算符需要高性能的张量程序。但是,要在各种硬件平台上为不同的运算符获取性能张量程序非常困难。
为了解决这一挑战,加州大学伯克利分校,阿里巴巴,亚马逊网络服务和杜克大学的研究人员探索了一种新颖的搜索策略,以生成高性能张量程序。
他们介绍了Ansor,一个用于深度学习应用程序的张量程序生成框架。通过有效地探索大型搜索空间,Ansor可以找到现有方法搜索空间之外的高性能程序。
Ansor在各种神经网络和硬件平台上的表现优于现有的手动库和其他基于搜索的框架,最高可优化3.8倍。Ansor的所有源代码都将开源。
原文:
https://arxiv.org/abs/2006.06762v2
通过增强现实中的应用程序进行即时3D对象跟踪
单眼视频中的跟踪是计算机视觉中一个具有挑战性且经过充分研究的问题。尽管2D跟踪已经有了强大的解决方案,但从单眼RGB图像进行3D跟踪仍然是一个巨大的挑战。
最近发布的这篇论文提出了一种用于3D对象跟踪的系统,该系统能够在移动设备上进行实时3D边界框跟踪。该系统使用神经网络初始化3D姿势,然后利用平面跟踪器在视频帧中跟踪对象的姿势。该端到端系统在移动设备上可以实时运行。
该跟踪器能够在移动设备上实时执行相对规模为9自由度的跟踪。通过有效地结合使用CPU和GPU,它在移动设备上实现了26-FPS +的性能。
阅读更多:
https://arxiv.org/abs/2006.13194v1
机器翻译如何兼得速度与质量
快速且准确的机器翻译是研究和生产中具有广泛应用的基本目标。
为了推动该领域的研究,Facebook AI和艾伦研究所的研究人员提供了广泛的经验研究,该研究证明通过一种简单的层分配策略(深层编码器,浅层解码器)可以大大加快自回归翻译的速度。
与强大的非自回归模型相比,深浅结合的自回归模型以可比的延迟在翻译质量上实现了显著的提高。
结果表明,在任何序列到序列任务中,编码器和解码器之间更好的层分配可以加速推理。具体来说,具有深度编码器和浅层解码器的模型可用于大规模预训练并生成序列,以BART为例,延迟减少将在许多实际应用中成为关键。
阅读更多:
https://arxiv.org/abs/2006.10369v1
其他爆款论文
使用自我监督改进语音表示和个性化模型:
https://arxiv.org/abs/2002.12764
基于深度重构和预测的自治系统异常检测:
https://arxiv.org/abs/2006.14556v1
自然语言处理中对抗性攻击的框架:
https://arxiv.org/abs/2005.05909v2
通过3DMotion-Net学习连续流函数以进行3D运动预测:
https://arxiv.org/abs/2006.13906v1
从原始失真的视频中发现物理定律:在未经监督的原始且可能会失真的视频中,对对象的运动方程进行无监督学习的方法:
https://arxiv.org/abs/2005.11212v1
数据集
致命的NLP数据库:
https://datasets.quantumstat.com/
竞赛:有效的开放域问答
如果你有兴趣开发一个问答系统,其中包含回答开放域问题所需的所有知识,那么你可以参加此开放域问答问题。
在竞赛网站上找到可供下载的数据和评估代码,以及有关如何参与的日期和说明,以及用于更新的注册表格。
网站地址:
https://efficientqa.github.io/
阅读更多:
https://ai.googleblog.com/2020/06/presenting-challenge-and-workshop-in.html
AI大事件
特朗普冻结新签证可能威胁美国在人工智能领域的主导地位:
https://www.technologyreview.com/2020/06/26/1004520/trump-executive-order-h1b-visa-threatens-us-ai
英伟达和梅赛德斯将在2024年之前推出软件定义的自动驾驶汽车:
https://www.zdnet.com/article/nvidia-and-mercedes-benz-to-roll-out-software-defined-autonomous-vehicles-by-2024/
机器学习如何发现异常情况来抓捕金融网络犯罪分子:
https://thenextweb.com/neural/2020/06/26/how-machine-learning-combats-financial-cybercrime-syndication/