计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07（下）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07（下）

2024-10-23 52 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07（下）

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07（上）+https://developer.aliyun.com/article/1628943

摘要

最近探索了各种音频大型语言模型（ALLMs），这些模型使用单一的、统一的模型同时处理不同的音频任务。尽管现有的ALLMs评估主要集中在单一音频任务上，但现实世界的应用通常涉及同时处理多个音频流。为了弥补这一差距，我们提出了第一个多音频评估（MAE）基准，它包括来自11个多音频任务的20个数据集，涵盖语音和声音场景。在MAE上的全面实验表明，现有的ALLMs在理解单个音频输入中的主要音频元素方面非常强大，但在处理多音频场景时却很困难。为此，我们提出了一种新颖的多音频大型语言模型（MALLM），通过我们提出的合成数据上的判别学习来捕获多个相似音频之间的音频上下文。结果表明，我们提出的MALLM在所有基线上都取得了优异的性能，并且在使用合成数据时具有高数据效率，无需人工注释。

研究背景

大型语言模型（LLMs）在自然语言处理（NLP）的各个任务中取得了显著进展。最近在LLMs的进展也推动了各种强大的音频大型语言模型（ALLMs）的发展，这些模型在自动语音识别、语音合成、声音事件分类等一系列音频任务上取得了令人印象深刻的结果。

问题与挑战

现有的ALLMs训练和评估主要集中在单一音频输入上，这在现实世界的应用中是一个重大缺陷，因为现实世界的应用，如虚拟助手，通常需要同时处理多个音频流。

如何解决

为了解决这个问题，作者提出了第一个多音频评估（MAE）基准，用于评估ALLMs的多音频处理能力。此外，作者还开发了一个新颖的多音频大型语言模型（MALLM），通过合成数据上的判别学习来提高模型处理多个音频流的能力。

创新点

多音频评估（MAE）基准：这是第一个专门为评估ALLMs的多音频处理能力而设计的基准。
多音频大型语言模型（MALLM）：这是第一个为多音频任务量身定制的ALLM，它在处理多个音频流的同时保持了单一音频任务的竞争力。

算法模型

MALLM：通过合成数据上的判别学习进行训练，以发现两个相似音频样本之间的微妙差异。
合成数据策略：提出了一种可扩展的音频对合成策略，无需数据收集和人工标注即可实现多音频处理能力。

实验效果

MAE基准：在MAE基准上的实验结果显示，现有的开源ALLMs在多音频场景中表现不佳。
MALLM性能：新开发的MALLM在多音频理解方面显著优于所有现有的开源ALLMs，并且在单一音频任务上也保持了竞争力。

4. A Survey on the Honesty of Large Language Models

S Li, C Yang, T Wu, C Shi, Y Zhang, X Zhu, Z Cheng… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2409.18786

大型语言模型的诚实性研究综述

摘要：

文章讨论了大型语言模型（LLMs）的诚实性问题，诚实性是指模型能够认识到它们所知道和不知道的事物，并能够忠实地表达它们的知识。尽管LLMs在很多方面表现出了巨大潜力，但它们在表达时仍会出现显著的不诚实行为，例如错误地自信地提供错误答案，或未能表达它们所知道的信息。文章提供了对LLMs诚实性研究的综述，包括诚实性的澄清、评估方法和改进策略，并为未来的研究提供了见解。

研究背景：

诚实性是将LLMs与人类价值观对齐的基本原则之一，特别是在医学、法律和金融等高风险领域。然而，当前的LLMs模型经常表现出不诚实的行为，比如过于自信地给出错误答案，或者无法准确表达其内部状态。

问题与挑战：

LLMs的诚实性研究面临几个挑战：诚实性在LLMs中的定义各不相同，识别已知和未知知识之间的区别存在困难，并且对相关研究的全面理解不足。

如何解决：

文章通过提供对LLMs诚实性的综述来解决这些问题，包括其定义、评估方法和改进策略。

创新点：

文章的主要创新点在于提供了一个全面的诚实性研究综述，这有助于统一对LLMs诚实性的理解，并为未来的研究提供了清晰的方向。

算法模型：

文章没有提出新的算法模型，而是对现有的评估和改进LLMs诚实性的方法进行了综述。

实验效果：

文章没有提供具体的实验数据，因为它是一个综述性质的文章，而不是一个实验性的研究。它总结了现有的研究成果，并提出了未来研究的方向。

推荐阅读指数：

8/10

推荐理由：

这篇文章是对LLMs诚实性研究的一个很好的概述，适合那些对LLMs的可靠性、评估标准和改进方法感兴趣的研究人员和从业者。

5. FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

Y Imajuku, Y Yamakata, K Aizawa - arXiv preprint arXiv:2409.18459, 2024

https://arxiv.org/pdf/2409.18459

FoodMLLM-JP：利用多模态大型语言模型进行日文食谱生成

摘要：

这篇文章探讨了如何使用多模态大型语言模型（MLLMs）来理解食物图像，并生成对应的日文食谱。鉴于食物与人们生活的密切关系，这一研究领域对于实际应用（如饮食管理）至关重要。文章中，作者们对现有的MLLMs进行了微调，并在日文食谱数据集上进行了性能评估，与封闭模型GPT-4o进行了对比。研究表明，经过食谱数据训练的开放模型在生成食材方面的表现超过了GPT-4o。

研究背景:

食物图像理解是一个活跃的研究领域，它涉及到从食物图像中估计菜肴名称和食材等任务。随着MLLMs的出现，这些模型在处理图像和文本数据方面展现出了巨大潜力。

问题与挑战：

尽管MLLMs在处理英语方面表现出色，但对非英语语言（如日语）的支持还有待提高。此外，食物图像的理解需要模型能够准确地从图像中提取食材和烹饪步骤信息。

如何解决：

作者们通过对现有的MLLMs进行微调，使其能够更好地理解和生成日文食谱。他们还引入了一种新方法，即在训练过程中加入非食物图像及其标题，使模型能够在生成食谱文本之前判断输入图像是否为食物图像。

创新点：

提出了一个全面的流程，包括微调开源MLLMs和基于考虑食物文化的策划评估数据的评估。
利用MLLMs的多功能性，保留了人类创建的原始食谱文本，同时在训练过程中加入非食物图像及其标题，增加了数据多样性。
通过食谱文本生成任务，分析了不同基础MLLMs和微调MLLMs时调整参数的性能差异。

算法模型：

文章中使用了LLaVA-1.5和Phi-3 Vision这两个开放的MLLMs，并在日文食谱数据集上进行了微调。此外，还使用了GPT-4o作为封闭模型进行对比。

实验效果：

在食材生成方面，作者们的模型达到了0.531的F1分数，超过了GPT-4o的0.481，显示出更高的准确性。
在烹饪步骤文本生成方面，作者们的模型达到了6.261的sacreBLEU分数，与GPT-4o的7.223分数相当。

6. CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models

K Ryu, Q Liao, Z Li, K Sreenath, N Mehr - arXiv preprint arXiv:2409.18382, 2024

https://arxiv.org/pdf/2409.18382

CurricuLLM: 使用大型语言模型自动设计学习复杂机器人技能的教学大纲

摘要

CurricuLLM 是一种利用大型语言模型（LLMs）为复杂机器人控制任务自动生成教学大纲的方法。该方法通过逐步增加任务难度来促进目标任务的学习。CurricuLLM 包括生成子任务序列的自然语言描述、将子任务描述翻译成可执行的任务代码，以及基于轨迹回滚和子任务描述评估训练策略。在多种机器人模拟环境中评估了 CurricuLLM，并在现实世界中验证了通过 CurricuLLM 学习到的类人机器人运动策略。

研究背景

深度强化学习（DRL）在机器人任务中取得了显著成功，但需要大量有信息量的样本进行学习，对于复杂任务来说效率很低。人类学习策略通常是从简单任务开始，逐渐增加难度。课程学习正是基于这种结构化学习方法，目的是以有意义的顺序训练模型，逐步提高训练数据的复杂性或任务本身的难度。