目录:
Dense reinforcement learning for safety validation of autonomous vehicles
Sparks of Artificial General Intelligence: Early experiments with GPT-4
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
LERF: Language Embedded Radiance Fields
UNIVERSAL FEW-SHOT LEARNING OF DENSE PREDICTION TASKS WITH VISUAL TOKEN MATCHING
RETHINKING THE EXPRESSIVE POWER OF GNNS VIA GRAPH BICONNECTIVITY
DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Dense reinforcement learning for safety validation of autonomous vehicles
作者:封硕、Haowei Sun、Haojie Zhu 等
论文地址:https://www.nature.com/articles/s41586-023-05732-2
摘要:本文中,来自密歇根大学安娜堡分校、清华大学等机构的研究者,他们提出密集深度强化学习 (D2RL,dense deep-reinforcement-learning) 方法来解决这一挑战。该研究登 Nature 封面。
为了利用 AI 技术,该研究将 AV 测试问题表述为马尔可夫决策过程 (MDP),其中 BV 的操作是根据当前状态信息决定的。该研究旨在训练一个由神经网络建模的策略(DRL 智能体),它可以控制 BV 与 AV 交互的操作,以最大限度地提高评估效率并确保无偏性。然而,如上文所述,受维数和计算复杂度的限制,如果直接应用 DRL 方法,很难甚至根本无法学习有效策略。
为了证明基于 AI 的测试方法是有效的,该研究使用大规模实际驾驶数据集对 BV 进行了训练,并进行了模拟实验和物理测试轨道的现场实验,实验结果如下图 1 所示。
推荐:强化学习再登 Nature 封面,自动驾驶安全验证新范式大幅减少测试里程。
论文 2:Sparks of Artificial General Intelligence: Early experiments with GPT-4
作者:S´ebastien Bubeck 、 Varun Chandrasekaran 等
论文地址:https://arxiv.org/pdf/2303.12712.pdf
摘要:最近一段时间,如大家所见,大型语言模型 (LLM) 走到聚光灯下,这些神经网络基于 Transformer 架构,并在大量文本数据集上训练而成。尤其是 OpenAI 最新发布的 GPT-4,更是展示了大型语言模型的通用性,在数学、文字、法律、医学等领域样样精通。
我们不禁会问,GPT-4 是迈向 AGI 的重要一步吗?
微软给出的答案是肯定的,在其最近发布的一篇论文中,他们阐述了这个观点。文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」
微软还表示,「本文的主要目标是对 GPT-4 的能力和局限性进行探索,我们相信 GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。」
根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。
在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。
推荐:做完 GPT-4 完整测评,微软爆火论文称初版 AGI 就快来了。
论文 3:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
作者:Tyna Eloundou 、 Sam Manning 等
论文地址:https://arxiv.org/pdf/2303.10130v1.pdf
摘要:OpenAI 研究人员提交的一篇报告引发了人们更加热烈的讨论,研究人员估计 ChatGPT 和使用该程序构建的未来应用可能影响美国大约 19% 的工作岗位,和他们至少 50% 的工作任务。
与此同时,80% 的美国劳动力至少有 10% 的工作任务在某种程度上将受到 ChatGPT 的影响。
该研究分析表明,像 GPT-4 这样的 LLM(大型语言模型)的影响可能是无处不在的。此外,工资较高的工作 —— 可能需要执行许多基于软件的任务 —— 会面临更多来自人工智能聊天机器人的潜在影响。
在职业影响方面,受影响最大的职业包括翻译工作者、作家、记者、数学家、财务工作者、区块链工程师等。
该研究还按行业细分了 ChatGPT 的影响。数据处理托管、出版业等行业最有可能受到影响。相比之下,体力劳动较多的行业 —— 食品、林业、社会援助等受到的潜在影响最小。
GPT 模型对经济的整体影响。
推荐:ChatGPT 可能影响 80% 工作岗位,收入越高影响越大。
论文 4:LERF: Language Embedded Radiance Fields
作者:Justin Kerr 、 Chung Min Kim 等
论文地址:https://arxiv.org/pdf/2303.09553v1.pdf
摘要:本文中,来自 UC 伯克利的研究者提出了一种新颖的方法,并命名为 LERF(Language Embedded Radiance Fields),该方法将 CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到 NeRF 中,从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP,无需通过 COCO 等数据集进行微调,也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性,还能够处理各种语言查询,包括视觉属性(如黄色)、抽象概念(如电流)、文本等,如图 1 所示。
LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上,输入提示小羊、或者水杯,LERF 就可以给出相关 3D 图:
推荐:自然语言融入 NeRF,给点文字就生成 3D 图的 LERF 来了。
论文 5:UNIVERSAL FEW-SHOT LEARNING OF DENSE PREDICTION TASKS WITH VISUAL TOKEN MATCHING
作者:Donggyun Kim 、 Jinwoo Kim 等
论文地址:https://openreview.net/pdf?id=88nT0j5jAn
摘要:该论文提出了一种用于密集预测任务的少样本学习 pipeline,密集预测任务包括语义分割、深度估计、边缘检测和关键点检测等。该研究提出了一个简单的统一模型,可以处理所有密集预测任务,并包含多项关键创新。该研究将激发密集预测的进一步发展,所提方法 —— 例如视觉 token 匹配、情景(episodic)元学习 —— 可以用于相关的多任务学习问题。
推荐:ICLR 2023 杰出论文奖。
论文 6:RETHINKING THE EXPRESSIVE POWER OF GNNS VIA GRAPH BICONNECTIVITY
作者:张博航,罗胜杰,王立威,贺笛
论文地址:https://openreview.net/pdf?id=r9hNv76KoT3
摘要:该论文基于双连通性(biconnectivity)提出一种 GNN 表达性度量新指标。具体来说,该研究提出了一种利用节点间距离的新算法,并在合成数据和真实数据中进行了演示。该研究表明:双连通性问题在理论和实践中都有着广泛的潜在应用。
推荐:ICLR 2023 杰出论文奖。
论文 7:DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
作者:Ben Poole, Ajay Jain, Jonathan T. Barron 等
论文地址:https://openreview.net/pdf?id=FjNys5c7VyY
摘要:该论文提出了一种基于文本生成 3D 模型的有效方法,而无需 3D 模型作为训练数据。该论文的关键思想是利用本生成图像的扩散模型,并通过将误差信号反向传播到 3D 模型的神经辐射场来生成 3D 模型。该方法是 SOTA 图像生成和 3D 建模的巧妙组合,在实践中效果极好,并将启发各种后续工作,包括基于文本的 3D 视频生成。
推荐:ICLR 2023 杰出论文奖。