【大语言模型】-最新研究进展-2024-10-11

1. Self-Updatable Large Language Models with Parameter Integration

Y Wang, X Liu, X Chen, S O'Brien, J Wu, J McAuley
https://arxiv.org/pdf/2410.00487

自我可更新的大型语言模型与参数集成

摘要：
本文提出了一种名为SELF-PARAM（Self-Updatable Large Language Models with Parameter Integration）的新方法，旨在解决大型语言模型（LLMs）在快速且频繁地整合小规模经验时面临的挑战。该方法不需要额外的参数，同时确保了近乎最佳的效率和长期记忆能力。通过最小化原始模型（有上下文信息）和目标模型（无上下文信息）预测之间的Kullback-Leibler (KL) 散度，本文的方法能够在不需要外部存储的情况下，将知识直接嵌入到模型参数中。

研究背景：
在动态环境中，认知系统需要通过不断整合新经验和反思过去互动来适应环境变化。这一过程中，系统需要具备两个关键属性：效率（Efficacy）和保持（Retention）。现有的方法要么依赖于额外的模块或参数，要么通过持续学习、模型编辑或知识蒸馏技术将经验直接嵌入模型参数中，但这些方法在处理复杂互动和快速更新时存在局限性。

算法模型：
SELF-PARAM方法通过训练目标，最小化原始模型和目标模型之间的KL散度。通过生成与知识相关的多样化问答对，并最小化这些数据集上的KL散度，目标模型能够无缝地将知识内化到其参数中。

核心创新点：

不需要额外参数即可实现近乎最佳的效率和长期保持。
通过最小化KL散度，直接在模型参数中嵌入知识，避免了外部存储的需求。
在多样化的任务中展示了SELF-PARAM方法的优越性能，包括单一上下文注入、批量上下文注入、顺序上下文注入和对话推荐任务。

实验效果：
实验在问答和对话推荐任务上进行，结果表明SELF-PARAM在效率和保持方面显著优于现有方法。例如，在批量上下文注入任务中，SELF-PARAM在不同模型和上下文大小上均实现了最高的QA-F1分数。

后续潜在研究方向：
未来的工作可能会探索将SELF-PARAM扩展到更大的模型，整合多模态经验，并将其应用于更广泛的应用领域，以进一步验证其有效性和通用性。

推荐阅读指数： 3.5

分析总结：
本文提出了一种创新的方法来解决大型语言模型在整合新经验时面临的挑战。通过最小化KL散度，SELF-PARAM能够在不增加额外参数的情况下，有效地将新知识嵌入到模型参数中。这种方法不仅提高了模型的效率和保持能力，而且避免了对外部存储的依赖，这对于需要频繁更新和适应新环境的应用场景尤为重要。实验结果证明了SELF-PARAM在多种任务中的有效性，特别是在处理复杂互动和快速更新方面。未来的研究可能会集中在扩展这种方法到更大规模的模型，并探索其在更多领域的应用潜力。

2. CodeJudge: Evaluating Code Generation with Large Language Models

W Tong, T Zhang - arXiv preprint arXiv:2410.02184, 2024
https://arxiv.org/pdf/2410.02184

CODEJUDGE：使用大型语言模型评估代码生成

摘要：
本文介绍了CODEJUDGE，这是一个利用大型语言模型（LLMs）评估生成代码的语义正确性的框架。该框架通过引导LLMs进行“慢思考”来实现深入可靠的评估，无需测试用例。研究者在四种代码生成数据集和五种编程语言上进行了实验，结果表明CODEJUDGE在大多数设置中显著优于现有方法。即使使用较小的模型Llama-3-8B-Instruct，CODEJUDGE也取得了比基于GPT-3.5的SOTA方法更好的结果。

研究背景：
尽管LLMs在代码生成方面表现出了希望，但如何可靠地评估LLMs生成的代码仍然是一个未解决的问题。现有的基于测试的方法依赖于手动编写的测试用例，这限制了它们在没有测试用例或测试用例不足以覆盖所有情况时的应用。

算法模型：
CODEJUDGE支持两种评估：（1）确定模型生成的代码是否正确；（2）估计生成的代码与用户意图代码的一致程度。该框架通过引导LLM进行逐步分析，然后要求其将分析结果总结为二元决策。

核心创新点：

提出了一种新的评估框架，无需测试用例即可评估代码的语义正确性。
设计了两种方法引导LLM进行“慢思考”，以实现可靠的代码评估。
在多种编程语言和数据集上的实验表明，CODEJUDGE在大多数设置中优于现有方法。

实验效果：
实验在五种编程语言（Java、C++、Python、JavaScript、Go）和四个数据集（HumanEval-X、CoNaLa、APPS、BigCodeBench）上进行。结果表明，CODEJUDGE在所有四个LLM上均实现了显著更高的相关性（12.1%-41.8%），并且即使使用相对较小的模型（Llama-3-8B-Instruct），CODEJUDGE仍然优于使用GPT-3.5-Turbo的ICE-Score方法。

后续潜在研究方向：
未来的工作可能会探索更好的方法来引导LLMs进行代码评估，以及如何进一步提高评估的准确性和可靠性。

推荐阅读指数： 3

分析总结：
CODEJUDGE是一个创新的框架，它通过引导LLMs进行“慢思考”来评估代码的语义正确性，而无需依赖测试用例。这种方法在多种编程语言和数据集上的实验结果表明，它能够显著优于现有的评估方法。CODEJUDGE的核心创新在于它能够引导LLMs进行深入的分析和评估，这在代码生成领域是一个重要的进步。未来的研究可能会集中在如何进一步提高评估的准确性和可靠性，以及如何将这种方法应用于更广泛的代码生成任务中。

3. How Reliable Is Human Feedback For Aligning Large Language Models?

MH Yeh, L Tao, J Wang, X Du, Y Li
https://arxiv.org/pdf/2410.01957

人类反馈对于大型语言模型对齐有多可靠？

摘要：
本研究关注人类反馈数据在对齐大型语言模型（LLMs）时的可靠性。研究发现，超过25%的数据集与金标准奖励模型（gold reward models）的一致性低或没有一致性，表明人类反馈存在高度不可靠性。通过定性分析，研究识别了六个关键的不可靠性来源，如错误标记、主观偏好、不同标准和阈值等。最后，为了减轻不可靠性，研究提出了一种名为Source-Aware Cleaning的自动数据清洗方法，显著提高了数据质量。广泛的实验表明，训练在清洗后的数据集HH-Clean上的模型，在对齐性能上显著优于训练在原始数据集上的模型。

研究背景：
人类反馈被广泛用于通过技术如人类反馈强化学习（RLHF）和离线偏好优化来对齐大型语言模型。然而，人类标注者可能会引入偏见、不一致性和噪声，这可能影响对齐的有效性。

算法模型：
研究首先通过与金标准奖励模型的一致性来评估人类反馈的可靠性。然后，通过定性分析来识别不可靠性的来源，并提出了Source-Aware Cleaning（SAC）方法来自动清洗数据。

核心创新点：

提出了一种新的方法来评估人类反馈的可靠性。
通过定性分析识别了导致人类反馈不可靠的六个关键来源。
提出了Source-Aware Cleaning方法来自动清洗数据，显著提高了数据质量。

实验效果：
通过在清洗后的数据集HH-Clean上训练的模型，在对齐性能上显著优于在原始数据集上训练的模型。例如，使用Llama-3-8B模型在HH-Clean上训练的模型，与使用原始数据集训练的模型相比，胜率提高了77%。

后续潜在研究方向：
未来的工作可能会探索如何进一步提高数据清洗方法的效率和准确性，以及如何将这种方法应用于更广泛的数据集和对齐任务。

推荐阅读指数： 3.5

分析总结：
本文通过深入分析人类反馈数据的可靠性，为大型语言模型的对齐提供了重要的见解。研究不仅揭示了人类反馈中存在的不可靠性，而且还提出了一种有效的数据清洗方法来提高数据质量。这种方法的提出，对于提高LLMs的对齐性能和可靠性具有重要意义。未来的研究可能会集中在如何进一步提高数据清洗方法的效率和准确性，以及如何将这种方法应用于更广泛的数据集和对齐任务。

4. Aligning with logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models

Y Liu, Z Guo, T Liang, E Shareghi, I Vulić, N Collier
https://arxiv.org/pdf/2410.02205

测量、评估和改进大型语言模型中的逻辑一致性

摘要：
本文研究了大型语言模型（LLMs）的逻辑一致性，这是构建更可靠和可信系统的基本要求。逻辑一致性确保决策基于对问题的稳定和一致的理解，减少了不稳定或矛盾输出的风险。研究首先提出了一个通用框架，通过三个基本代理：传递性、交换性和否定不变性来量化逻辑一致性。然后，使用定义的度量标准评估了多种LLMs的逻辑一致性，表明它可以作为整体鲁棒性的强代理。此外，研究还介绍了一种数据提炼和增强技术，可以在不牺牲与人类偏好对齐的情况下增强LLMs的逻辑一致性。该技术通过使用排名聚合方法估计部分或完全排序的偏好排名来增强噪声和稀疏的成对比较
注释。最后，研究展示了逻辑一致性如何影响LLMs作为逻辑操作符的基于LLM的逻辑依赖算法的性能。

研究背景：
尽管LLMs在指令遵循能力和与人类偏好对齐的生成响应方面取得了显著进展，但它们在做出决策或判断时仍表现出不一致和有偏见的行为。这些问题影响了它们的可信度，并限制了LLMs在专业和高风险应用中的全面实际部署。

算法模型：
研究提出了一个通用框架，通过传递性、交换性和否定不变性三个基本属性来量化逻辑一致性。然后，研究使用这些定义的度量标准来评估多种LLMs的逻辑一致性，并发现逻辑一致性与LLMs的内部鲁棒性和可靠性有很强的相关性。

核心创新点：

提出了一个通用框架来量化LLMs的逻辑一致性。
引入了一种数据提炼和增强技术，可以在不牺牲与人类偏好对齐的情况下增强LLMs的逻辑一致性。
展示了逻辑一致性如何影响LLMs作为逻辑操作符的基于LLM的逻辑依赖算法的性能。

实验效果：
通过在多个代表性任务上的广泛评估，研究发现逻辑一致性与LLMs的内部鲁棒性和可靠性有很强的相关性。此外，当应用于逻辑依赖的下游应用时，具有更好逻辑一致性的LLMs的表现优于一致性较差的模型。

后续潜在研究方向：
未来的工作可能会探索如何进一步提高LLMs的逻辑一致性，以及如何将这种方法应用于更广泛的任务和领域。

推荐阅读指数： 3.5

分析总结：
本文通过提出一个通用框架来量化LLMs的逻辑一致性，并引入数据提炼和增强技术，为提高LLMs的可靠性和可信度提供了重要的见解。研究不仅展示了逻辑一致性与LLMs的内部鲁棒性和可靠性之间的强相关性，而且还证明了通过改进逻辑一致性可以提高LLMs在逻辑依赖算法中的性能。这些发现对于构建更可靠和可信的LLMs系统具有重要意义。未来的研究可能会集中在如何进一步提高LLMs的逻辑一致性，以及如何将这种方法应用于更广泛的任务和领域。

5. Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen
https://arxiv.org/abs/2410.06101

与你共进化：使用顺序合作多智能体强化学习微调LLM

摘要：
本文提出了一种名为CORY的新方法，它将大型语言模型（LLMs）的强化学习（RL）微调扩展到了顺序合作多智能体强化学习框架。在CORY中，待微调的LLM最初被复制成两个自治代理：先驱者和观察者。先驱者根据查询生成响应，而观察者则使用查询和先驱者的响应来生成响应。这两个代理一起被训练。在训练过程中，代理们会定期交换角色，促进它们之间的合作和共进化。通过在IMDB Review和GSM8K数据集上分别使用主观和客观奖励函数对GPT-2和Llama-2进行微调的实验，结果表明CORY在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于PPO，从而强调了它作为改进现实世界应用中LLMs的优越方法的潜力。

研究背景：
强化学习（RL）已成为针对特定任务微调大型语言模型（LLMs）的关键技术。然而，现有的RL微调方法主要依赖于PPO及其变体。尽管这些算法在一般的RL设置中有效，但在应用于LLMs的微调时，它们通常表现出次优性能，并且对分布崩溃敏感。

算法模型：
CORY将LLMs的RL微调扩展到了顺序合作多智能体强化学习框架。LLM被复制成两个自治代理：先驱者和观察者。先驱者根据任务查询独立生成响应，观察者则基于查询和先驱者的响应生成响应。这两个代理共享一个集体奖励，并同时进行训练。

核心创新点：

提出了CORY方法，将LLMs的RL微调扩展到了顺序合作多智能体强化学习框架。
设计了知识转移和角色交换两种基本机制，以促进两个LLM代理之间的共进化。
CORY是一个与算法无关的方法，可以与各种RL算法集成，同时保持简单性和与现有方法的兼容性。

实验效果：
在IMDB Review和GSM8K数据集上的实验结果表明，CORY在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于PPO。例如，在GSM8K数据集上，CORY微调的4位量化Llama-2-chat-7b模型在测试集上达到了18%的pass@1准确率。

后续潜在研究方向：
未来的工作可能会探索在更大规模的模型和更复杂的任务中应用CORY，以及如何进一步提高CORY的效率和可扩展性。

推荐阅读指数： 4

分析总结：
CORY通过将LLMs的RL微调扩展到顺序合作多智能体强化学习框架，为提高LLMs在特定任务中的性能提供了一种新的方法。通过知识转移和角色交换机制，CORY能够促进LLM代理之间的共进化，从而在微调过程中实现更好的性能。实验结果表明，CORY在多个数据集上都优于现有的PPO方法，这表明CORY在提高LLMs的微调性能方面具有显著的潜力。未来的研究可能会集中在如何将CORY应用于更大规模的模型和更复杂的任务，以及如何进一步提高CORY的效率和可扩展性。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞、收藏、关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

【大语言模型】-最新研究进展-2024-10-11

【大语言模型】-最新研究进展-2024-10-11

1. Self-Updatable Large Language Models with Parameter Integration

2. CodeJudge: Evaluating Code Generation with Large Language Models

3. How Reliable Is Human Feedback For Aligning Large Language Models?

4. Aligning with logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models

5. Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

后记

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

【大语言模型】-最新研究进展-2024-10-11

【大语言模型】-最新研究进展-2024-10-11

1. Self-Updatable Large Language Models with Parameter Integration

2. CodeJudge: Evaluating Code Generation with Large Language Models

3. How Reliable Is Human Feedback For Aligning Large Language Models?

4. Aligning with logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models

5. Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

后记

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景