7 Papers & Radios | ICLR 2023杰出论文奖;微软GPT-4完整测评

简介: 7 Papers & Radios | ICLR 2023杰出论文奖;微软GPT-4完整测评


目录:

Dense reinforcement learning for safety validation of autonomous vehicles

Sparks of Artificial General Intelligence: Early experiments with GPT-4

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

LERF: Language Embedded Radiance Fields

UNIVERSAL FEW-SHOT LEARNING OF DENSE PREDICTION TASKS WITH VISUAL TOKEN MATCHING

RETHINKING THE EXPRESSIVE POWER OF GNNS VIA GRAPH BICONNECTIVITY

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Dense reinforcement learning for safety validation of autonomous vehicles

作者:封硕、Haowei Sun、Haojie Zhu 等

论文地址:https://www.nature.com/articles/s41586-023-05732-2


摘要:本文中,来自密歇根大学安娜堡分校、清华大学等机构的研究者,他们提出密集深度强化学习 (D2RL,dense deep-reinforcement-learning) 方法来解决这一挑战。该研究登 Nature 封面。

为了利用 AI 技术,该研究将 AV 测试问题表述为马尔可夫决策过程 (MDP),其中 BV 的操作是根据当前状态信息决定的。该研究旨在训练一个由神经网络建模的策略(DRL 智能体),它可以控制 BV 与 AV 交互的操作,以最大限度地提高评估效率并确保无偏性。然而,如上文所述,受维数和计算复杂度的限制,如果直接应用 DRL 方法,很难甚至根本无法学习有效策略。

为了证明基于 AI 的测试方法是有效的,该研究使用大规模实际驾驶数据集对 BV 进行了训练,并进行了模拟实验和物理测试轨道的现场实验,实验结果如下图 1 所示。

推荐:强化学习再登 Nature 封面,自动驾驶安全验证新范式大幅减少测试里程。

论文 2:Sparks of Artificial General Intelligence: Early experiments with GPT-4

作者:S´ebastien Bubeck 、 Varun Chandrasekaran 等

论文地址:https://arxiv.org/pdf/2303.12712.pdf


摘要:最近一段时间,如大家所见,大型语言模型 (LLM) 走到聚光灯下,这些神经网络基于 Transformer 架构,并在大量文本数据集上训练而成。尤其是 OpenAI 最新发布的 GPT-4,更是展示了大型语言模型的通用性,在数学、文字、法律、医学等领域样样精通。

我们不禁会问,GPT-4 是迈向 AGI 的重要一步吗?

微软给出的答案是肯定的,在其最近发布的一篇论文中,他们阐述了这个观点。文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」

微软还表示,「本文的主要目标是对 GPT-4 的能力和局限性进行探索,我们相信 GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。」

根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。

在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。

推荐:做完 GPT-4 完整测评,微软爆火论文称初版 AGI 就快来了。

论文 3:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

作者:Tyna Eloundou 、 Sam Manning 等

论文地址:https://arxiv.org/pdf/2303.10130v1.pdf


摘要:OpenAI 研究人员提交的一篇报告引发了人们更加热烈的讨论,研究人员估计 ChatGPT 和使用该程序构建的未来应用可能影响美国大约 19% 的工作岗位,和他们至少 50% 的工作任务。

与此同时,80% 的美国劳动力至少有 10% 的工作任务在某种程度上将受到 ChatGPT 的影响。

该研究分析表明,像 GPT-4 这样的 LLM(大型语言模型)的影响可能是无处不在的。此外,工资较高的工作 —— 可能需要执行许多基于软件的任务 —— 会面临更多来自人工智能聊天机器人的潜在影响。

在职业影响方面,受影响最大的职业包括翻译工作者、作家、记者、数学家、财务工作者、区块链工程师等。

该研究还按行业细分了 ChatGPT 的影响。数据处理托管、出版业等行业最有可能受到影响。相比之下,体力劳动较多的行业 —— 食品、林业、社会援助等受到的潜在影响最小。

GPT 模型对经济的整体影响。

推荐:ChatGPT 可能影响 80% 工作岗位,收入越高影响越大。

论文 4:LERF: Language Embedded Radiance Fields

作者:Justin Kerr 、 Chung Min Kim 等

论文地址:https://arxiv.org/pdf/2303.09553v1.pdf


摘要:本文中,来自 UC 伯克利的研究者提出了一种新颖的方法,并命名为 LERF(Language Embedded Radiance Fields),该方法将 CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到 NeRF 中,从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP,无需通过 COCO 等数据集进行微调,也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性,还能够处理各种语言查询,包括视觉属性(如黄色)、抽象概念(如电流)、文本等,如图 1 所示。

LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上,输入提示小羊、或者水杯,LERF 就可以给出相关 3D 图:

推荐:自然语言融入 NeRF,给点文字就生成 3D 图的 LERF 来了。

论文 5:UNIVERSAL FEW-SHOT LEARNING OF DENSE PREDICTION TASKS WITH VISUAL TOKEN MATCHING

作者:Donggyun Kim 、 Jinwoo Kim 等

论文地址:https://openreview.net/pdf?id=88nT0j5jAn


摘要:该论文提出了一种用于密集预测任务的少样本学习 pipeline,密集预测任务包括语义分割、深度估计、边缘检测和关键点检测等。该研究提出了一个简单的统一模型,可以处理所有密集预测任务,并包含多项关键创新。该研究将激发密集预测的进一步发展,所提方法 —— 例如视觉 token 匹配、情景(episodic)元学习 —— 可以用于相关的多任务学习问题。

推荐:ICLR 2023 杰出论文奖。

论文 6:RETHINKING THE EXPRESSIVE POWER OF GNNS VIA GRAPH BICONNECTIVITY

作者:张博航,罗胜杰,王立威,贺笛

论文地址:https://openreview.net/pdf?id=r9hNv76KoT3


摘要:该论文基于双连通性(biconnectivity)提出一种 GNN 表达性度量新指标。具体来说,该研究提出了一种利用节点间距离的新算法,并在合成数据和真实数据中进行了演示。该研究表明:双连通性问题在理论和实践中都有着广泛的潜在应用。

推荐:ICLR 2023 杰出论文奖。

论文 7:DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

作者:Ben Poole, Ajay Jain, Jonathan T. Barron 等

论文地址:https://openreview.net/pdf?id=FjNys5c7VyY


摘要:该论文提出了一种基于文本生成 3D 模型的有效方法,而无需 3D 模型作为训练数据。该论文的关键思想是利用本生成图像的扩散模型,并通过将误差信号反向传播到 3D 模型的神经辐射场来生成 3D 模型。该方法是 SOTA 图像生成和 3D 建模的巧妙组合,在实践中效果极好,并将启发各种后续工作,包括基于文本的 3D 视频生成。

推荐:ICLR 2023 杰出论文奖。


相关文章
|
8月前
|
人工智能 搜索推荐 机器人
微软 Copilot 推出多个定制 GPT 模型,包括健身教练、度假计划师等
【2月更文挑战第9天】微软 Copilot 推出多个定制 GPT 模型,包括健身教练、度假计划师等
97 2
微软 Copilot 推出多个定制 GPT 模型,包括健身教练、度假计划师等
|
27天前
|
数据采集 自然语言处理 Serverless
GPT-Sovits文本转语音服务测评报告
本文介绍了一款基于阿里云函数计算平台部署的GPT-Sovits文本生成语音服务。该服务以其高度仿真的声音合成效果和简便的部署方式受到关注。文章详细描述了技术架构、部署流程、功能测试及性能评估等内容,展示了GPT-Sovits在语音合成领域的卓越表现和广泛的应用前景。
175 8
|
3月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
56 6
|
5月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
7月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
7月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
98 5
|
8月前
|
人工智能 测试技术 iOS开发
微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
Phi-3系列是微软推出的一系列高效语言模型,旨在在移动设备上实现高性能。该系列包括 Phi-3-mini(38亿参数)、Phi-3-small 和 Phi-3-medium,它们在保持紧凑的同时,性能媲美GPT-3.5和Mixtral。模型通过精心筛选的数据集和优化训练策略,如数据最优化和阶段训练,实现高效能。 Phi-3-mini可在iPhone 14上运行,占用约1.8GB内存。这些模型在多个基准测试中展现出色性能,推动了AI在移动设备上的应用,增强了用户隐私和体验。虽然目前仅发布技术报告,但源代码和权重即将开放下载。
170 1
|
8月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
96 2
保姆级教程--抢先体验 Microsoft 365 Copilot,微软全家桶Chat GPT
前段时间微软发的Microsoft 365 Copilot 可以说非常火爆了,那么该怎么抢鲜体验呢。今天分享的操作,目前大家不用急着来,因为订阅365还是要花钱的,大家可以等到真正能用的时候再开通。
1328 0
|
人工智能 自然语言处理 测试技术
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
130 0

热门文章

最新文章