计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26(上)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

1. LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

LLMs仍然无法规划;LRMs可以吗?对OpenAI的o1在PlanBench上的初步评估

摘要

本文探讨了大型语言模型(LLMs)是否具备规划能力,并特别评估了OpenAI最新模型o1(草莓模型)在PlanBench基准上的表现。尽管o1在性能上相较于其他LLMs有显著提升,但仍未达到饱和状态,这引发了关于准确性、效率和保证的讨论。

创新点

  • 提出了将大型推理模型(LRMs)与LLMs进行比较的新视角。
  • 对o1模型在规划任务上的能力进行了初步评估。

算法模型

  • o1模型:OpenAI开发的新型模型,旨在通过更深入的“思考”来解决科学、编码和数学领域的复杂任务。

实验效果

  • Blocksworld Zero Shot: 准确率97.8%,执行时间40.43秒。
  • Mystery Blocksworld One Shot: 准确率41.6%,执行时间82.03秒。
  • Randomized Mystery Blocksworld Zero Shot: 准确率37.3%,执行时间111.11秒。

重要数据与结论:

  • o1模型在PlanBench上的表现超过了现有的LLMs,但仍未达到最优。
  • 在不同的规划任务中,o1显示出了改进,但仍然存在一定的局限性。

推荐阅读指数:

★★★★☆

推荐理由:

  • 对于对AI规划能力和大型语言模型的最新进展感兴趣的研究者和从业者来说,这篇文章可以参考。
  • 文章讨论了LRMs的潜力和当前的局限性,对于理解未来AI的发展方向具有启发性。

2. Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

Authors: Gracjan G’oral, Alicja Ziarko, Michal Nauman, Maciej Wo{\l}czyk

https://arxiv.org/abs/2409.12969

通过他们的眼睛看:评估视觉语言模型中的视觉视角获取

摘要:

本文探讨了视觉语言模型(VLMs)是否具备理解他人视角的能力,这对于预测他人行为至关重要。研究者们开发了两个数据集Isle-Bricks和Isle-Dots来测试VLMs的视觉视角获取(VPT)技能,并评估了12种常用的VLMs。研究发现,当需要进行视角获取时,所有模型的性能都显著下降。

研究背景:

在现实世界中,理解他人的视角对于避免事故、有效协调行动或在社交环境中做出适当反应至关重要。尽管VLMs在许多任务上表现出色,但它们是否具备VPT能力尚不清楚。

技术挑战:

  • 如何评估VLMs在VPT任务上的表现。
  • 如何设计能够准确测试VPT技能的数据集。

创新点:

  • 提出了两个新的数据集Isle-Bricks和Isle-Dots,用于测试VPT技能。
  • 评估了12种不同的VLMs在VPT任务上的性能。

算法模型:

  • Isle-Bricks和Isle-Dots数据集。
  • 12种不同的VLMs,包括闭源和开源模型。

实验数据及实验效果:

  • 数据集:Isle-Bricks和Isle-Dots。
  • 实验结论:VLMs在需要视角获取的任务上性能显著下降,与物体检测任务的性能相关性弱。

推荐阅读指数:

★★★★☆

推荐理由:

这篇文章为理解视觉语言模型在处理视觉视角获取任务上的能力提供了新的视角,并提出了新的评估方法和数据集,对于VLMs的进一步研究和应用具有重要意义。

3. TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning

Authors: Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue

Zhang, Qianhui Wu, Victor R"uhle

https://arxiv.org/abs/2409.13035

TACO-RL:任务感知提示压缩优化与强化学习

摘要:

随着大型语言模型(LLMs)在各种应用中的普及,所需的提示大小不断增加,导致计算效率面临挑战。本文提出了一种基于强化学习的任务感知提示压缩方法,旨在通过最小化输入标记数量来降低推理成本,而不损害任务性能。

研究背景:

LLMs在自然语言处理任务上表现出色,但随着输入提示长度的增加,推理成本和延迟要求也在增加。

技术挑战:

  • 如何在不损失任务性能的前提下,减少输入提示的长度。

创新点:

  • 提出了一种新的基于强化学习的提示压缩方法,通过任务特定的奖励信号来指导学习过程。

算法模型:

  • 基于Transformer的编码器模型。
  • 轻量级REINFORCE算法。


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26(下)+https://developer.aliyun.com/article/1628899

相关文章
|
2月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
261 0
|
2月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
199 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
2月前
|
存储 监控 算法
基于 Go 语言跳表结构的局域网控制桌面软件进程管理算法研究
针对企业局域网控制桌面软件对海量进程实时监控的需求,本文提出基于跳表的高效管理方案。通过多级索引实现O(log n)的查询、插入与删除性能,结合Go语言实现并发安全的跳表结构,显著提升进程状态处理效率,适用于千级进程的毫秒级响应场景。
166 15
|
2月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
180 8
|
2月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
153 0
|
2月前
|
存储 监控 算法
基于 PHP 布隆过滤器的局域网监控管理工具异常行为检测算法研究
布隆过滤器以其高效的空间利用率和毫秒级查询性能,为局域网监控管理工具提供轻量化异常设备检测方案。相比传统数据库,显著降低延迟与资源消耗,适配边缘设备部署需求,提升网络安全实时防护能力。(238字)
165 0
|
3月前
|
机器学习/深度学习 存储 算法
【微电网调度】考虑需求响应的基于改进多目标灰狼算法的微电网优化调度研究(Matlab代码实现)
【微电网调度】考虑需求响应的基于改进多目标灰狼算法的微电网优化调度研究(Matlab代码实现)
170 0
|
2月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
200 2
|
3月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
225 3
|
3月前
|
存储 编解码 算法
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
162 6

热门文章

最新文章