计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25(上)+https://developer.aliyun.com/article/1628887

3. CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

TH Wu, JE Gonzalez, T Darrell, DM Chan - arXiv preprint arXiv:2409.12962, 2024

CLAIRA: 利用大型语言模型评估音频字幕

摘要

自动化音频字幕(AAC)任务要求模型为音频输入生成自然语言描述。评估这些机器生成的音频字幕是一项复杂任务,需要考虑多种因素,包括听觉场景理解、声音对象推断、时间连贯性和环境上下文等。尽管当前方法专注于特定方面,但它们往往未能提供一个与人类判断一致的总体评分。在这项工作中,我们提出了 CLAIRA,一种简单灵活的方法,利用大型语言模型(LLMs)的零样本能力,通过直接询问 LLMs 获得语义距离分数来评估候选音频字幕。在我们的评估中,CLAIRA 在预测人类对质量的判断方面比传统指标更准确,与领域特定的 FENSE 指标相比,相对准确率提高了 5.8%,与 Clotho-Eval 数据集上的最佳通用指标相比提高了高达 11%。此外,CLAIRA 提供了更多的透明度,允许语言模型解释其分数背后的原因,这些解释被评为比基线方法提供的原因质量高出 30%。CLAIRA 已公开提供。

创新点

  1. 零样本评估:使用大型语言模型(LLMs)直接对音频字幕进行质量评分,无需针对特定任务的训练数据。
  2. 语义距离评分:通过 LLMs 生成的语义距离分数来评估音频字幕的质量。
  3. 解释性评分:CLAIRA 不仅提供评分,还要求 LLMs 以自然语言的形式解释其评分,增加了评分的可解释性。

算法模型

  • CLAIRA:通过大型语言模型(如 GPT-4o)生成包含数值评分和解释性文本的 JSON 输出。
  • 引导生成技术:使用上下文无关文法(CFG)来约束文本生成过程,确保生成的 JSON 格式正确。
  • 归一化 LLM 分数:将 LLM 生成的数值输出转换为 0 到 1 之间的标准化分数。
  • 平局 LLM 分数:CLAIRAE 通过多个 LLMs 生成平均 LLM 分数,然后与平局方法结合。

实验效果

  • 人类判断一致性:CLAIRA 在 Clotho-Eval 数据集上的人类偏好匹配准确率显著高于其他指标。
  • 多语言评估:CLAIRA 在中文翻译的 Clotho 数据集上的表现几乎与英文版本相同,证明了其在多语言数据上的适用性。
  • 解释性评分质量:人类评估者对 CLAIRA 生成的解释性评分的质量给予了高度评价。

重要数据与结论

  • CLAIRA 在 Clotho-Eval 数据集上的总体准确率为 79.7%,比 FENSE 指标高出 5.8%。
  • 在多语言评估中,CLAIRA 在中文数据集上的准确率为 74.5%,与英文版本相当。
  • 在解释性评分质量方面,CLAIRA 的评分比基线方法高出 30%。
  • 代码: https://github.com/DavidMChan/clair-a

推荐阅读指数

★★★★☆

推荐理由

  • 创新性:CLAIRA 提供了一种新颖的方法来评估音频字幕,利用 LLMs 的强大能力,同时提供了可解释的评分。
  • 实际应用价值:该方法能够更好地预测人类对音频字幕质量的判断,对于自动化音频处理和评估具有重要意义。
  • 多语言支持:CLAIRA 在多语言环境下的表现证明了其广泛的适用性。
  • 开源可用性:CLAIRA 已公开提供,可以被研究者和开发者广泛使用和进一步研究。

4. Making Large Language Models into World Models with Precondition and Effect Knowledge

K Xie, I Yang, J Gunerli, M Riedl - arXiv preprint arXiv:2409.12278, 2024

将大型语言模型转化为具有前提和效果知识的世界观模型

摘要

本文探讨了大型语言模型(LLMs)作为世界观模型的潜力,尽管LLMs并非为模拟现实世界动态而设计,但研究表明它们可以执行世界观模型的两个关键功能:根据给定的世界状态确定动作的适用性,以及预测执行动作后的世界状态。通过微调两个独立的LLMs——一个用于前提预测,另一个用于效果预测——并利用合成数据生成技术,实现了这一目标。通过人类参与者研究,验证了模型生成的前提和效果知识与人类对世界动态的理解一致。此外,还分析了在合成数据上训练的世界观模型在推断状态空间方面的效果,这是规划所需的必要属性。

创新点

  1. 世界观模型的构建:提出了一种新方法,将LLMs转化为能够预测有效动作和状态转换的世界观模型。
  2. 合成数据生成技术:利用LLMs生成合成数据,用于微调模型,提高了模型训练的效果。
  3. 人类评估验证:通过人类参与者研究,验证了模型生成的前提和效果知识与人类对现实世界的理解一致。

算法模型

  • 前提/效果推断模块:通过微调LLMs来预测动作的前提和效果。
  • 语义状态匹配模块:设计了两个独立的模块,一个用于有效动作预测,另一个用于状态转换预测。
  • 全局-局部提示技术:提出了一种新的提示技术,用于生成高质量的动作前提/效果语料库。

实验效果

  • 人类评估:93%的动作样本被认为是合理的,87%的动作计划样本具有显著的动作链。
  • 自动评估:在前提和效果推断模块的自动评估中,F1分数分别为65.67和61.43,表明模型能够准确预测动作的前提和效果。
  • 世界观模型评估:在有效动作预测和状态转换预测的任务中,模型的准确率分别为81.50%和63%,表明模型能够有效地进行状态转换预测。

重要数据与结论

  • 模型在预测动作前提和效果方面表现出色,与人类评估者的理解一致。
  • 合成数据生成技术提高了模型训练的效果。
  • 模型在规划和理解复杂动作链方面具有潜力。

推荐阅读指数

★★★☆☆

推荐理由

  • 创新性:该研究将LLMs应用于构建世界观模型,这是一个新颖的研究方向。
  • 实际应用价值:研究提供了一种方法,使得LLMs能够在模拟现实世界动态方面发挥作用,这对于人工智能的发展具有重要意义。

5. Bootstrapping Object-level Planning with Large Language Models

D Paulius, A Agostini, B Quartey, G Konidaris - arXiv preprint arXiv:2409.12262, 2024

利用大型语言模型引导对象级规划

摘要

本文介绍了一种新方法,该方法从大型语言模型(LLM)中提取知识以产生对象级计划,这些计划描述了对象状态的高级变化,并将其用于以分层方式引导任务和运动规划(TAMP)。现有的工作使用LLM要么直接输出任务计划,要么在PDDL等表示形式中生成目标。然而,这些方法存在不足,因为它们要么依赖LLM进行实际规划,要么输出难以满足的目标。我们的方法则是从LLM中提取知识,形成称为功能对象导向网络(FOON)的对象级表示,从中我们自动生成PDDL子目标。我们的实验表明,我们的方法在模拟中的多个任务上的性能显著超过了替代规划策略。

创新点

  1. 对象级规划:提出了一种新的对象级规划方法,该方法使用LLM生成的对象级计划作为任务和运动规划的引导。
  2. 功能对象导向网络(FOON):引入了一种新的表示方法,用于描述对象-动作关系,并将LLM生成的计划转换为PDDL子目标。
  3. 分层规划方法:提出了一种分层规划方法,将LLM生成的对象级计划用于任务规划,再通过运动规划执行。

算法模型

  • LLM提示:使用LLM生成自然语言指令序列,然后将其转换为FOON表示的对象级计划。
  • FOON:一个功能对象导向网络,是一个描述对象-动作关系的图表示,用于生成PDDL子目标。
  • 任务规划:将FOON中的每个动作转换为PDDL定义,以找到任务计划片段。
  • 运动规划:使用运动规划来找到解决任务的机器人动作序列。

实验效果

  • 计划完成率:在所有任务设置中,OLP方法的平均计划完成率最高。
  • 成功率:在执行计划时,OLP方法的成功率也较高,表明生成的计划更符合给定指令的意图。
  • 平均计划时间:OLP方法的平均计划时间较短,表明其在效率上有优势。

重要数据与结论

  • 在塔建造、拼写和整理桌子等任务中,OLP方法的计划完成率分别为86%、80%和81%,成功率分别为88%、77%和94%。
  • OLP方法的平均计划时间远低于LLM-Planner和DELTA方法,表明其在规划速度上有显著优势。

推荐阅读指数

★★☆☆☆

推荐理由

  • 创新性:该研究提出了一种结合LLM和TAMP的新颖规划方法,为机器人规划领域提供了新的视角。
  • 跨领域应用:该方法不仅适用于机器人规划,还可以为其他需要复杂决策和规划的任务提供参考。

6. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

X Zhou, D Chen, S Cahyawijaya, X Duan, ZG Cai - arXiv preprint arXiv:2409.12435, 2024

利用语言最小对探究大型语言模型的语言表征

摘要

本文介绍了一种新方法,通过语言最小对(linguistic minimal pairs)来探测大型语言模型(LLMs)的内部语言表征。通过测量最小对之间的LLM激活差异的相似性,我们量化了语言相似性,并洞察了LLMs所捕捉的语言知识。我们大规模的实验涵盖了100多个LLMs和150k个最小对,涉及三种语言,揭示了从四个关键方面来看的语言相似性属性:跨LLMs的一致性、与理论分类的关系、对语义上下文的依赖性,以及跨语言的相关现象的对齐。我们的发现表明,1) 语言相似性受到训练数据暴露的显著影响,导致在资源丰富的语言(如英语)中跨LLM一致性更高;2) 语言相似性与细粒度的理论语言类别强烈对齐,但与更广泛的类别弱相关;3) 语言相似性与语义相似性的相关性较弱,显示了其上下文依赖性;4) LLMs在理解相关语言现象方面的跨语言对齐有限。这项工作展示了最小对作为洞察LLMs神经表征语言的窗口的潜力,阐明了LLMs与语言理论之间的关系。

创新点

  1. 语言最小对分析:使用语言最小对来探测LLMs的内部语言表征。
  2. 跨LLMs的比较:量化了不同LLMs之间的语言相似性。
  3. 理论与模型的对比:将语言相似性与理论语言学类别进行对比。
  4. 上下文依赖性研究:探讨了语言相似性与语义相似性的关系。
  5. 跨语言对齐:分析了不同语言中相关现象的语言相似性。

算法模型

  • 语言最小对:使用最小对来提取LLMs的激活差异,这些差异仅包含特定语言现象的信息。
  • 激活差异的相似性测量:通过计算多个激活差异之间的相似性来量化语言相似性。
  • 大规模实验:在多个LLMs和语言最小对上进行实验,涉及多种语言。

实验效果

  • 跨LLMs的一致性:在英语中一致性最高,而在中文和俄语中一致性较弱。
  • 与理论分类的关系:语言相似性与细粒度的理论分类高度一致,但在更广泛的分类中差异减小。
  • 上下文依赖性:语言相似性与语义相似性的相关性较弱,表明其上下文依赖性。
  • 跨语言对齐:LLMs在不同语言中对相关现象的理解存在差异,但确实捕捉到了一些跨语言的关系。

重要数据与结论

  • 在英语中,LLMs之间的平均一致性得分为0.471,而在中文和俄语中分别为0.414和0.139。
  • 在最细粒度的理论分类中,同类内部相似性显著高于不同类之间的相似性。
  • 在英语和中文中,相关现象的平均语言相似性分别为0.04853和0.01883。

推荐阅读指数

★★★★☆

推荐理由

  • 创新性:该研究采用了一种新颖的方法来分析LLMs的内部工作机制,为理解LLMs的语言处理提供了新的视角。
  • 跨学科价值:该研究为语言学、计算机科学和人工智能等领域的交叉研究提供了新的数据和见解。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

————————————————

目录
相关文章
|
25天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
9天前
|
人工智能 并行计算 算法
量子计算算法:超越经典计算机的边界
量子计算基于量子力学原理,利用量子位、量子叠加和量子纠缠等特性,实现并行计算和高效处理复杂问题。核心算法如Shor算法和Grover算法展示了量子计算在大数分解和搜索问题上的优势。尽管面临量子位稳定性和规模化等挑战,量子计算在化学模拟、优化问题和人工智能等领域展现出巨大潜力,预示着未来的广泛应用前景。
|
24天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
20天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
70 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
20天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
62 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
20天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
63 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
25天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
76 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
量子计算算法:超越经典计算机的边界
【10月更文挑战第30天】量子计算基于量子力学原理,通过量子比特和量子门实现超越经典计算机的计算能力。本文探讨量子计算的基本原理、核心算法及其在密码学、化学、优化问题和机器学习等领域的应用前景,并讨论当前面临的挑战与未来发展方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
58 3