论文 5:PACMAN: Attacking ARM Pointer Authentication with Speculative Execution
- 作者:Joseph Ravichandran 、 Weon Taek Na 、 Jay Lang 等
- 论文地址:http://pacmanattack.com/paper.pdf
摘要:近日,来自 MIT CSAIL 的学者们重点介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击,名为「PACMAN」,这种攻击能够阻止 M1 芯片检测到软件漏洞攻击。
该研究团队由 MIT 电气工程与计算机科学系助理教授 Mengjia Yan 领导,成员包括 Joseph Ravichandran、Weon Taek Na、Jay Lang。他们将在本月即将举行的计算机体系结构顶会 ISCA 2022 会议上重点介绍「PACMAN」。
「PACMAN」能够削弱 PAC 防御能力的攻击模式,从而使得计算机操作系统变得易受攻击。由于 PAC 可能会集成到未来基于 64 位 Arm 架构构建的处理器中,因此该漏洞可能会变得更加普遍。团队表示,他们尚未对新发布的同样支持指针身份验证的 M2 芯片进行测试。
对于越来越多采用苹果设备的企业而言,这一漏洞值得重视。据调查,美国企业中约有 23% 的用户目前使用 Mac 设备。「如果不能缓解这种情况,我们的攻击将影响到大多数移动设备,甚至可能在未来几年影响到桌面设备。」论文中写道。
在 MIT 这项研究中,团队探索了内存损坏漏洞和微架构边信道漏洞之间的协同作用,展示了如何使用硬件攻击来协助软件攻击,以绕过强大的安全防御机制。
这个名为 「PACMAN」 的漏洞,会假设计算机上已经存在一个软件错误,可以读取和写入不同的内存地址。然后,它利用 M1 硬件架构的一个细节,赋予漏洞执行代码并可能接管操作系统的能力。
推荐:MIT 爆出苹果 M1 芯片重大漏洞:硬件级安全机制被攻破,补丁无法修复。
论文 6:Multi-Game Decision Transformers
- 作者:Kuang-Huei Lee 、 Ofir Nachum 等
- 论文地址:https://arxiv.org/pdf/2205.15241.pdf
摘要:在自然语言处理、计算机视觉和二者的交叉领域中,通过训练大量与任务无关的数据集,建立大规模的通用模型来解决许多任务,已经成为主流方法。这些模型可以适应新的任务 (例如翻译) ,利用不相关的数据 (例如使用高资源语言来改进低资源语言的翻译) ,甚至可以通过将图像投影到语言空间来纳入新的模式。这些方法的成功很大程度上来自于可扩展模型架构、大量未标注的任务无关数据以及高性能计算基础设施的不断改进。至关重要的是,标度律表明,规模带来的性能提升尚未达到饱和点。
在最近的一项工作中,谷歌研究院的成员们提出,类似的进展在强化学习领域是可能发生的,并且他们采取可扩展的方法的初步步骤,生成了表现优越的通才型智能体。与视觉和语言领域相反,强化学习通常倡导使用更小的模型,模型也通常用于解决单一任务,或在同一环境中的多个任务。重要的是,跨越多种环境的训练的研究数量并不多,很少有人研究横跨不同动力学、奖励、视觉效果和智能体实施方式的东西。
具体地说,研究者调研了是否可以从大量的专家和非专家经验中训练一个单一的模型(具有单一的一组参数)在多种环境中行动。他们在一组 41 个 Atari 游戏上进行训练,用来满足多样性方面的要求,并提出了一个问题:「模型能从玩很多视频游戏的过程中学到一些通用的东西吗?」
为了训练这个模型,研究者只使用了先前从 Agarwal et al. [1] 中收集到的轨迹,但是交互式地评估了本研究的智能体。研究者表示,他们并不是在追求特定游戏智能体所能达到的精通程度或效率,因为这项研究仍处于早期阶段。相反,他们要探索的是,在语言和视觉领域观察到的相同趋势,是否也适用于大规模的通才型强化学习?
研究发现,在对离线专家数据集和非专家数据集进行训练之后,智能体可以在所有游戏中同时达到人类级别性能的 126%,如图 1 所示。此外,研究者还发现了与语言和视觉领域相似的趋势:用很少的数据快速适应从未见过的游戏 (第 4.5 节) ,性能和模型大小之间的幂律关系 (第 4.4 节) ,以及为更大的模型提供更快的训练进度。
推荐:Gato 之后,谷歌也推出「通才型」智能体 Multi-Game Decision Transformers。
论文 7:End-to-end Generative Pretraining for Multimodal Video Captioning
- 作者:Paul Hongsuck Seo 、 Arsha Nagrani 等
- 论文地址:https://arxiv.org/pdf/2201.08264.pdf
摘要:在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子解码器,以输出未来语句文本,制定新的双向生成任务作为目标。
实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。
MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。
MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为解码器启动前向和后向生成。
MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。
推荐:谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现 SOTA。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0021:22
本周 10 篇 NLP 精选论文是:
1. DIRECTOR: Generator-Classifiers For Supervised Language Modeling. (from Jason Weston)2. FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents. (from Mohammed J. Zaki)3. Fine-tuning Pre-trained Language Models with Noise Stability Regularization. (from Jiebo Luo)4. MPI: Evaluating and Inducing Personality in Pre-trained Language Models. (from Song-Chun Zhu)5. Enhanced Knowledge Selection for Grounded Dialogues via Document Semantic Graphs. (from Yang Liu, Dilek Hakkani-Tur)6. Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization. (from Brian Kingsbury)7. A Simple Yet Efficient Method for Adversarial Word-Substitute Attack. (from Yi Yang)8. The Case for a Single Model that can Both Generate Continuations and Fill in the Blank. (from Chris Callison-Burch)9. Improving the Adversarial Robustness of NLP Models by Information Bottleneck. (from Kai-Wei Chang, Cho-Jui Hsieh)10. Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems. (from Dilek Hakkani-Tur)
本周 10 篇 CV 精选论文是:1. Zero-Shot Video Question Answering via Frozen Bidirectional Language Models. (from Josef Sivic, Ivan Laptev, Cordelia Schmid)2. AVATAR: Unconstrained Audiovisual Speech Recognition. (from Cordelia Schmid)3. Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022. (from Trevor Darrell)4. Object Scene Representation Transformer. (from Leonidas J. Guibas)5. Disentangling visual and written concepts in CLIP. (from Antonio Torralba)6. Virtual Correspondence: Humans as a Cue for Extreme-View Geometry. (from Raquel Urtasun, Antonio Torralba)7. Multimodal Event Graphs: Towards Event Centric Understanding of Multimodal World. (from Shih-Fu Chang)8. A Simple Data Mixing Prior for Improving Self-Supervised Learning. (from Alan Yuille)9. SP-ViT: Learning 2D Spatial Priors for Vision Transformers. (from Lei Zhang, Xiansheng Hua)10. APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking. (from Dacheng Tao)
本周 10 篇 ML 精选论文是:
1. SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks. (from Tomaso Poggio)2. Communication-Efficient Robust Federated Learning with Noisy Labels. (from Jian Pei, Heng Huang)3. Weighted Ensembles for Active Learning with Adaptivity. (from Georgios B. Giannakis)4. Diffeomorphic Counterfactuals with Generative Models. (from Klaus-Robert Müller)5. Contrastive Learning as Goal-Conditioned Reinforcement Learning. (from Ruslan Salakhutdinov, Sergey Levine)6. Learning to Accelerate Partial Differential Equations via Latent Global Evolution. (from Jure Leskovec)7. Learning Large-scale Subsurface Simulations with a Hybrid Graph Network Simulator. (from Jure Leskovec)8. Towards Understanding How Machines Can Learn Causal Overhypotheses. (from John Canny)9. Feature Overcorrelation in Deep Graph Neural Networks: A New Perspective. (from Charu Aggarwal, Jiliang Tang)10. Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone fine-tuning without episodic meta-learning dominates for few-shot learning image classification. (from Frank Hutter, Isabelle Guyon)