计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25（下）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25（上）+https://developer.aliyun.com/article/1628887

3. CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

TH Wu, JE Gonzalez, T Darrell, DM Chan - arXiv preprint arXiv:2409.12962, 2024

CLAIRA: 利用大型语言模型评估音频字幕

摘要

自动化音频字幕（AAC）任务要求模型为音频输入生成自然语言描述。评估这些机器生成的音频字幕是一项复杂任务，需要考虑多种因素，包括听觉场景理解、声音对象推断、时间连贯性和环境上下文等。尽管当前方法专注于特定方面，但它们往往未能提供一个与人类判断一致的总体评分。在这项工作中，我们提出了 CLAIRA，一种简单灵活的方法，利用大型语言模型（LLMs）的零样本能力，通过直接询问 LLMs 获得语义距离分数来评估候选音频字幕。在我们的评估中，CLAIRA 在预测人类对质量的判断方面比传统指标更准确，与领域特定的 FENSE 指标相比，相对准确率提高了 5.8%，与 Clotho-Eval 数据集上的最佳通用指标相比提高了高达 11%。此外，CLAIRA 提供了更多的透明度，允许语言模型解释其分数背后的原因，这些解释被评为比基线方法提供的原因质量高出 30%。CLAIRA 已公开提供。

创新点

零样本评估：使用大型语言模型（LLMs）直接对音频字幕进行质量评分，无需针对特定任务的训练数据。
语义距离评分：通过 LLMs 生成的语义距离分数来评估音频字幕的质量。
解释性评分：CLAIRA 不仅提供评分，还要求 LLMs 以自然语言的形式解释其评分，增加了评分的可解释性。

算法模型

CLAIRA：通过大型语言模型（如 GPT-4o）生成包含数值评分和解释性文本的 JSON 输出。
引导生成技术：使用上下文无关文法（CFG）来约束文本生成过程，确保生成的 JSON 格式正确。
归一化 LLM 分数：将 LLM 生成的数值输出转换为 0 到 1 之间的标准化分数。
平局 LLM 分数：CLAIRAE 通过多个 LLMs 生成平均 LLM 分数，然后与平局方法结合。

实验效果

人类判断一致性：CLAIRA 在 Clotho-Eval 数据集上的人类偏好匹配准确率显著高于其他指标。
多语言评估：CLAIRA 在中文翻译的 Clotho 数据集上的表现几乎与英文版本相同，证明了其在多语言数据上的适用性。
解释性评分质量：人类评估者对 CLAIRA 生成的解释性评分的质量给予了高度评价。

重要数据与结论

CLAIRA 在 Clotho-Eval 数据集上的总体准确率为 79.7%，比 FENSE 指标高出 5.8%。
在多语言评估中，CLAIRA 在中文数据集上的准确率为 74.5%，与英文版本相当。
在解释性评分质量方面，CLAIRA 的评分比基线方法高出 30%。
代码: https://github.com/DavidMChan/clair-a

推荐阅读指数：

★★★★☆

推荐理由

创新性：CLAIRA 提供了一种新颖的方法来评估音频字幕，利用 LLMs 的强大能力，同时提供了可解释的评分。
实际应用价值：该方法能够更好地预测人类对音频字幕质量的判断，对于自动化音频处理和评估具有重要意义。
多语言支持：CLAIRA 在多语言环境下的表现证明了其广泛的适用性。
开源可用性：CLAIRA 已公开提供，可以被研究者和开发者广泛使用和进一步研究。

4. Making Large Language Models into World Models with Precondition and Effect Knowledge

K Xie, I Yang, J Gunerli, M Riedl - arXiv preprint arXiv:2409.12278, 2024

将大型语言模型转化为具有前提和效果知识的世界观模型

摘要

本文探讨了大型语言模型（LLMs）作为世界观模型的潜力，尽管LLMs并非为模拟现实世界动态而设计，但研究表明它们可以执行世界观模型的两个关键功能：根据给定的世界状态确定动作的适用性，以及预测执行动作后的世界状态。通过微调两个独立的LLMs——一个用于前提预测，另一个用于效果预测——并利用合成数据生成技术，实现了这一目标。通过人类参与者研究，验证了模型生成的前提和效果知识与人类对世界动态的理解一致。此外，还分析了在合成数据上训练的世界观模型在推断状态空间方面的效果，这是规划所需的必要属性。

创新点

世界观模型的构建：提出了一种新方法，将LLMs转化为能够预测有效动作和状态转换的世界观模型。
合成数据生成技术：利用LLMs生成合成数据，用于微调模型，提高了模型训练的效果。
人类评估验证：通过人类参与者研究，验证了模型生成的前提和效果知识与人类对现实世界的理解一致。

算法模型

前提/效果推断模块：通过微调LLMs来预测动作的前提和效果。
语义状态匹配模块：设计了两个独立的模块，一个用于有效动作预测，另一个用于状态转换预测。
全局-局部提示技术：提出了一种新的提示技术，用于生成高质量的动作前提/效果语料库。

实验效果

人类评估：93%的动作样本被认为是合理的，87%的动作计划样本具有显著的动作链。
自动评估：在前提和效果推断模块的自动评估中，F1分数分别为65.67和61.43，表明模型能够准确预测动作的前提和效果。
世界观模型评估：在有效动作预测和状态转换预测的任务中，模型的准确率分别为81.50%和63%，表明模型能够有效地进行状态转换预测。

重要数据与结论

模型在预测动作前提和效果方面表现出色，与人类评估者的理解一致。
合成数据生成技术提高了模型训练的效果。
模型在规划和理解复杂动作链方面具有潜力。

推荐阅读指数：

★★★☆☆

推荐理由

创新性：该研究将LLMs应用于构建世界观模型，这是一个新颖的研究方向。
实际应用价值：研究提供了一种方法，使得LLMs能够在模拟现实世界动态方面发挥作用，这对于人工智能的发展具有重要意义。

5. Bootstrapping Object-level Planning with Large Language Models

D Paulius, A Agostini, B Quartey, G Konidaris - arXiv preprint arXiv:2409.12262, 2024

利用大型语言模型引导对象级规划

摘要

本文介绍了一种新方法，该方法从大型语言模型（LLM）中提取知识以产生对象级计划，这些计划描述了对象状态的高级变化，并将其用于以分层方式引导任务和运动规划（TAMP）。现有的工作使用LLM要么直接输出任务计划，要么在PDDL等表示形式中生成目标。然而，这些方法存在不足，因为它们要么依赖LLM进行实际规划，要么输出难以满足的目标。我们的方法则是从LLM中提取知识，形成称为功能对象导向网络（FOON）的对象级表示，从中我们自动生成PDDL子目标。我们的实验表明，我们的方法在模拟中的多个任务上的性能显著超过了替代规划策略。

创新点

对象级规划：提出了一种新的对象级规划方法，该方法使用LLM生成的对象级计划作为任务和运动规划的引导。
功能对象导向网络（FOON）：引入了一种新的表示方法，用于描述对象-动作关系，并将LLM生成的计划转换为PDDL子目标。
分层规划方法：提出了一种分层规划方法，将LLM生成的对象级计划用于任务规划，再通过运动规划执行。

算法模型

LLM提示：使用LLM生成自然语言指令序列，然后将其转换为FOON表示的对象级计划。
FOON：一个功能对象导向网络，是一个描述对象-动作关系的图表示，用于生成PDDL子目标。
任务规划：将FOON中的每个动作转换为PDDL定义，以找到任务计划片段。
运动规划：使用运动规划来找到解决任务的机器人动作序列。

实验效果

计划完成率：在所有任务设置中，OLP方法的平均计划完成率最高。
成功率：在执行计划时，OLP方法的成功率也较高，表明生成的计划更符合给定指令的意图。
平均计划时间：OLP方法的平均计划时间较短，表明其在效率上有优势。

重要数据与结论

在塔建造、拼写和整理桌子等任务中，OLP方法的计划完成率分别为86%、80%和81%，成功率分别为88%、77%和94%。
OLP方法的平均计划时间远低于LLM-Planner和DELTA方法，表明其在规划速度上有显著优势。

推荐阅读指数：

★★☆☆☆

推荐理由

创新性：该研究提出了一种结合LLM和TAMP的新颖规划方法，为机器人规划领域提供了新的视角。
跨领域应用：该方法不仅适用于机器人规划，还可以为其他需要复杂决策和规划的任务提供参考。

6. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

X Zhou, D Chen, S Cahyawijaya, X Duan, ZG Cai - arXiv preprint arXiv:2409.12435, 2024

利用语言最小对探究大型语言模型的语言表征

摘要

本文介绍了一种新方法，通过语言最小对（linguistic minimal pairs）来探测大型语言模型（LLMs）的内部语言表征。通过测量最小对之间的LLM激活差异的相似性，我们量化了语言相似性，并洞察了LLMs所捕捉的语言知识。我们大规模的实验涵盖了100多个LLMs和150k个最小对，涉及三种语言，揭示了从四个关键方面来看的语言相似性属性：跨LLMs的一致性、与理论分类的关系、对语义上下文的依赖性，以及跨语言的相关现象的对齐。我们的发现表明，1) 语言相似性受到训练数据暴露的显著影响，导致在资源丰富的语言（如英语）中跨LLM一致性更高；2) 语言相似性与细粒度的理论语言类别强烈对齐，但与更广泛的类别弱相关；3) 语言相似性与语义相似性的相关性较弱，显示了其上下文依赖性；4) LLMs在理解相关语言现象方面的跨语言对齐有限。这项工作展示了最小对作为洞察LLMs神经表征语言的窗口的潜力，阐明了LLMs与语言理论之间的关系。

创新点

语言最小对分析：使用语言最小对来探测LLMs的内部语言表征。
跨LLMs的比较：量化了不同LLMs之间的语言相似性。
理论与模型的对比：将语言相似性与理论语言学类别进行对比。
上下文依赖性研究：探讨了语言相似性与语义相似性的关系。
跨语言对齐：分析了不同语言中相关现象的语言相似性。

算法模型

语言最小对：使用最小对来提取LLMs的激活差异，这些差异仅包含特定语言现象的信息。
激活差异的相似性测量：通过计算多个激活差异之间的相似性来量化语言相似性。
大规模实验：在多个LLMs和语言最小对上进行实验，涉及多种语言。

实验效果

跨LLMs的一致性：在英语中一致性最高，而在中文和俄语中一致性较弱。
与理论分类的关系：语言相似性与细粒度的理论分类高度一致，但在更广泛的分类中差异减小。
上下文依赖性：语言相似性与语义相似性的相关性较弱，表明其上下文依赖性。
跨语言对齐：LLMs在不同语言中对相关现象的理解存在差异，但确实捕捉到了一些跨语言的关系。

重要数据与结论

在英语中，LLMs之间的平均一致性得分为0.471，而在中文和俄语中分别为0.414和0.139。
在最细粒度的理论分类中，同类内部相似性显著高于不同类之间的相似性。
在英语和中文中，相关现象的平均语言相似性分别为0.04853和0.01883。

推荐阅读指数：

★★★★☆

推荐理由

创新性：该研究采用了一种新颖的方法来分析LLMs的内部工作机制，为理解LLMs的语言处理提供了新的视角。
跨学科价值：该研究为语言学、计算机科学和人工智能等领域的交叉研究提供了新的数据和见解。

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更及时地了解前沿技术的发展现状。

————————————————

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25（下）

3. CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

4. Making Large Language Models into World Models with Precondition and Effect Knowledge

5. Bootstrapping Object-level Planning with Large Language Models

6. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25（下）

3. CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

4. Making Large Language Models into World Models with Precondition and Effect Knowledge

5. Bootstrapping Object-level Planning with Large Language Models

6. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

热门文章

最新文章

相关课程

相关电子书

相关实验场景