【大语言模型】-最新研究进展-2024-10-11

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 【大语言模型】-最新研究进展-2024-10-11,最新的5篇论文速读。

【大语言模型】-最新研究进展-2024-10-11


1. Self-Updatable Large Language Models with Parameter Integration

Y Wang, X Liu, X Chen, S O'Brien, J Wu, J McAuley
https://arxiv.org/pdf/2410.00487

自我可更新的大型语言模型与参数集成

摘要:
本文提出了一种名为SELF-PARAM(Self-Updatable Large Language Models with Parameter Integration)的新方法,旨在解决大型语言模型(LLMs)在快速且频繁地整合小规模经验时面临的挑战。该方法不需要额外的参数,同时确保了近乎最佳的效率和长期记忆能力。通过最小化原始模型(有上下文信息)和目标模型(无上下文信息)预测之间的Kullback-Leibler (KL) 散度,本文的方法能够在不需要外部存储的情况下,将知识直接嵌入到模型参数中。

研究背景:
在动态环境中,认知系统需要通过不断整合新经验和反思过去互动来适应环境变化。这一过程中,系统需要具备两个关键属性:效率(Efficacy)和保持(Retention)。现有的方法要么依赖于额外的模块或参数,要么通过持续学习、模型编辑或知识蒸馏技术将经验直接嵌入模型参数中,但这些方法在处理复杂互动和快速更新时存在局限性。

算法模型:
SELF-PARAM方法通过训练目标,最小化原始模型和目标模型之间的KL散度。通过生成与知识相关的多样化问答对,并最小化这些数据集上的KL散度,目标模型能够无缝地将知识内化到其参数中。

image.png

核心创新点:

  • 不需要额外参数即可实现近乎最佳的效率和长期保持。
  • 通过最小化KL散度,直接在模型参数中嵌入知识,避免了外部存储的需求。
  • 在多样化的任务中展示了SELF-PARAM方法的优越性能,包括单一上下文注入、批量上下文注入、顺序上下文注入和对话推荐任务。

实验效果:
实验在问答和对话推荐任务上进行,结果表明SELF-PARAM在效率和保持方面显著优于现有方法。例如,在批量上下文注入任务中,SELF-PARAM在不同模型和上下文大小上均实现了最高的QA-F1分数。
image-1.png
image-2.png

image-3.png

后续潜在研究方向:
未来的工作可能会探索将SELF-PARAM扩展到更大的模型,整合多模态经验,并将其应用于更广泛的应用领域,以进一步验证其有效性和通用性。

推荐阅读指数: 3.5

分析总结:
本文提出了一种创新的方法来解决大型语言模型在整合新经验时面临的挑战。通过最小化KL散度,SELF-PARAM能够在不增加额外参数的情况下,有效地将新知识嵌入到模型参数中。这种方法不仅提高了模型的效率和保持能力,而且避免了对外部存储的依赖,这对于需要频繁更新和适应新环境的应用场景尤为重要。实验结果证明了SELF-PARAM在多种任务中的有效性,特别是在处理复杂互动和快速更新方面。未来的研究可能会集中在扩展这种方法到更大规模的模型,并探索其在更多领域的应用潜力。

2. CodeJudge: Evaluating Code Generation with Large Language Models

W Tong, T Zhang - arXiv preprint arXiv:2410.02184, 2024
https://arxiv.org/pdf/2410.02184

CODEJUDGE:使用大型语言模型评估代码生成

摘要:
本文介绍了CODEJUDGE,这是一个利用大型语言模型(LLMs)评估生成代码的语义正确性的框架。该框架通过引导LLMs进行“慢思考”来实现深入可靠的评估,无需测试用例。研究者在四种代码生成数据集和五种编程语言上进行了实验,结果表明CODEJUDGE在大多数设置中显著优于现有方法。即使使用较小的模型Llama-3-8B-Instruct,CODEJUDGE也取得了比基于GPT-3.5的SOTA方法更好的结果。

研究背景:
尽管LLMs在代码生成方面表现出了希望,但如何可靠地评估LLMs生成的代码仍然是一个未解决的问题。现有的基于测试的方法依赖于手动编写的测试用例,这限制了它们在没有测试用例或测试用例不足以覆盖所有情况时的应用。
image-4.png

算法模型:
CODEJUDGE支持两种评估:(1)确定模型生成的代码是否正确;(2)估计生成的代码与用户意图代码的一致程度。该框架通过引导LLM进行逐步分析,然后要求其将分析结果总结为二元决策。
image-6.png

核心创新点:

  • 提出了一种新的评估框架,无需测试用例即可评估代码的语义正确性。
  • 设计了两种方法引导LLM进行“慢思考”,以实现可靠的代码评估。
  • 在多种编程语言和数据集上的实验表明,CODEJUDGE在大多数设置中优于现有方法。

实验效果:
实验在五种编程语言(Java、C++、Python、JavaScript、Go)和四个数据集(HumanEval-X、CoNaLa、APPS、BigCodeBench)上进行。结果表明,CODEJUDGE在所有四个LLM上均实现了显著更高的相关性(12.1%-41.8%),并且即使使用相对较小的模型(Llama-3-8B-Instruct),CODEJUDGE仍然优于使用GPT-3.5-Turbo的ICE-Score方法。
image-5.png

后续潜在研究方向:
未来的工作可能会探索更好的方法来引导LLMs进行代码评估,以及如何进一步提高评估的准确性和可靠性。

推荐阅读指数: 3

分析总结:
CODEJUDGE是一个创新的框架,它通过引导LLMs进行“慢思考”来评估代码的语义正确性,而无需依赖测试用例。这种方法在多种编程语言和数据集上的实验结果表明,它能够显著优于现有的评估方法。CODEJUDGE的核心创新在于它能够引导LLMs进行深入的分析和评估,这在代码生成领域是一个重要的进步。未来的研究可能会集中在如何进一步提高评估的准确性和可靠性,以及如何将这种方法应用于更广泛的代码生成任务中。

3. How Reliable Is Human Feedback For Aligning Large Language Models?

MH Yeh, L Tao, J Wang, X Du, Y Li
https://arxiv.org/pdf/2410.01957

人类反馈对于大型语言模型对齐有多可靠?

摘要:
本研究关注人类反馈数据在对齐大型语言模型(LLMs)时的可靠性。研究发现,超过25%的数据集与金标准奖励模型(gold reward models)的一致性低或没有一致性,表明人类反馈存在高度不可靠性。通过定性分析,研究识别了六个关键的不可靠性来源,如错误标记、主观偏好、不同标准和阈值等。最后,为了减轻不可靠性,研究提出了一种名为Source-Aware Cleaning的自动数据清洗方法,显著提高了数据质量。广泛的实验表明,训练在清洗后的数据集HH-Clean上的模型,在对齐性能上显著优于训练在原始数据集上的模型。

研究背景:
人类反馈被广泛用于通过技术如人类反馈强化学习(RLHF)和离线偏好优化来对齐大型语言模型。然而,人类标注者可能会引入偏见、不一致性和噪声,这可能影响对齐的有效性。

算法模型:
研究首先通过与金标准奖励模型的一致性来评估人类反馈的可靠性。然后,通过定性分析来识别不可靠性的来源,并提出了Source-Aware Cleaning(SAC)方法来自动清洗数据。
image-9.png

核心创新点:

  • 提出了一种新的方法来评估人类反馈的可靠性。
  • 通过定性分析识别了导致人类反馈不可靠的六个关键来源。
  • 提出了Source-Aware Cleaning方法来自动清洗数据,显著提高了数据质量。

实验效果:
通过在清洗后的数据集HH-Clean上训练的模型,在对齐性能上显著优于在原始数据集上训练的模型。例如,使用Llama-3-8B模型在HH-Clean上训练的模型,与使用原始数据集训练的模型相比,胜率提高了77%。
image-10.png

后续潜在研究方向:
未来的工作可能会探索如何进一步提高数据清洗方法的效率和准确性,以及如何将这种方法应用于更广泛的数据集和对齐任务。

推荐阅读指数: 3.5

分析总结:
本文通过深入分析人类反馈数据的可靠性,为大型语言模型的对齐提供了重要的见解。研究不仅揭示了人类反馈中存在的不可靠性,而且还提出了一种有效的数据清洗方法来提高数据质量。这种方法的提出,对于提高LLMs的对齐性能和可靠性具有重要意义。未来的研究可能会集中在如何进一步提高数据清洗方法的效率和准确性,以及如何将这种方法应用于更广泛的数据集和对齐任务。

4. Aligning with logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models

Y Liu, Z Guo, T Liang, E Shareghi, I Vulić, N Collier
https://arxiv.org/pdf/2410.02205

测量、评估和改进大型语言模型中的逻辑一致性

摘要:
本文研究了大型语言模型(LLMs)的逻辑一致性,这是构建更可靠和可信系统的基本要求。逻辑一致性确保决策基于对问题的稳定和一致的理解,减少了不稳定或矛盾输出的风险。研究首先提出了一个通用框架,通过三个基本代理:传递性、交换性和否定不变性来量化逻辑一致性。然后,使用定义的度量标准评估了多种LLMs的逻辑一致性,表明它可以作为整体鲁棒性的强代理。此外,研究还介绍了一种数据提炼和增强技术,可以在不牺牲与人类偏好对齐的情况下增强LLMs的逻辑一致性。该技术通过使用排名聚合方法估计部分或完全排序的偏好排名来增强噪声和稀疏的成对比较
注释。最后,研究展示了逻辑一致性如何影响LLMs作为逻辑操作符的基于LLM的逻辑依赖算法的性能。

研究背景:
尽管LLMs在指令遵循能力和与人类偏好对齐的生成响应方面取得了显著进展,但它们在做出决策或判断时仍表现出不一致和有偏见的行为。这些问题影响了它们的可信度,并限制了LLMs在专业和高风险应用中的全面实际部署。
image-7.png

算法模型:
研究提出了一个通用框架,通过传递性、交换性和否定不变性三个基本属性来量化逻辑一致性。然后,研究使用这些定义的度量标准来评估多种LLMs的逻辑一致性,并发现逻辑一致性与LLMs的内部鲁棒性和可靠性有很强的相关性。

核心创新点:

  • 提出了一个通用框架来量化LLMs的逻辑一致性。
  • 引入了一种数据提炼和增强技术,可以在不牺牲与人类偏好对齐的情况下增强LLMs的逻辑一致性。
  • 展示了逻辑一致性如何影响LLMs作为逻辑操作符的基于LLM的逻辑依赖算法的性能。

实验效果:
通过在多个代表性任务上的广泛评估,研究发现逻辑一致性与LLMs的内部鲁棒性和可靠性有很强的相关性。此外,当应用于逻辑依赖的下游应用时,具有更好逻辑一致性的LLMs的表现优于一致性较差的模型。
image-8.png

后续潜在研究方向:
未来的工作可能会探索如何进一步提高LLMs的逻辑一致性,以及如何将这种方法应用于更广泛的任务和领域。

推荐阅读指数: 3.5

分析总结:
本文通过提出一个通用框架来量化LLMs的逻辑一致性,并引入数据提炼和增强技术,为提高LLMs的可靠性和可信度提供了重要的见解。研究不仅展示了逻辑一致性与LLMs的内部鲁棒性和可靠性之间的强相关性,而且还证明了通过改进逻辑一致性可以提高LLMs在逻辑依赖算法中的性能。这些发现对于构建更可靠和可信的LLMs系统具有重要意义。未来的研究可能会集中在如何进一步提高LLMs的逻辑一致性,以及如何将这种方法应用于更广泛的任务和领域。

5. Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen
https://arxiv.org/abs/2410.06101

与你共进化:使用顺序合作多智能体强化学习微调LLM

摘要:
本文提出了一种名为CORY的新方法,它将大型语言模型(LLMs)的强化学习(RL)微调扩展到了顺序合作多智能体强化学习框架。在CORY中,待微调的LLM最初被复制成两个自治代理:先驱者和观察者。先驱者根据查询生成响应,而观察者则使用查询和先驱者的响应来生成响应。这两个代理一起被训练。在训练过程中,代理们会定期交换角色,促进它们之间的合作和共进化。通过在IMDB Review和GSM8K数据集上分别使用主观和客观奖励函数对GPT-2和Llama-2进行微调的实验,结果表明CORY在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于PPO,从而强调了它作为改进现实世界应用中LLMs的优越方法的潜力。

研究背景:
强化学习(RL)已成为针对特定任务微调大型语言模型(LLMs)的关键技术。然而,现有的RL微调方法主要依赖于PPO及其变体。尽管这些算法在一般的RL设置中有效,但在应用于LLMs的微调时,它们通常表现出次优性能,并且对分布崩溃敏感。

算法模型:
CORY将LLMs的RL微调扩展到了顺序合作多智能体强化学习框架。LLM被复制成两个自治代理:先驱者和观察者。先驱者根据任务查询独立生成响应,观察者则基于查询和先驱者的响应生成响应。这两个代理共享一个集体奖励,并同时进行训练。
image-11.png

核心创新点:

  • 提出了CORY方法,将LLMs的RL微调扩展到了顺序合作多智能体强化学习框架。
  • 设计了知识转移和角色交换两种基本机制,以促进两个LLM代理之间的共进化。
  • CORY是一个与算法无关的方法,可以与各种RL算法集成,同时保持简单性和与现有方法的兼容性。

实验效果:
在IMDB Review和GSM8K数据集上的实验结果表明,CORY在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于PPO。例如,在GSM8K数据集上,CORY微调的4位量化Llama-2-chat-7b模型在测试集上达到了18%的pass@1准确率。
image-12.png
image-13.png
image-14.png

后续潜在研究方向:
未来的工作可能会探索在更大规模的模型和更复杂的任务中应用CORY,以及如何进一步提高CORY的效率和可扩展性。

推荐阅读指数: 4

分析总结:
CORY通过将LLMs的RL微调扩展到顺序合作多智能体强化学习框架,为提高LLMs在特定任务中的性能提供了一种新的方法。通过知识转移和角色交换机制,CORY能够促进LLM代理之间的共进化,从而在微调过程中实现更好的性能。实验结果表明,CORY在多个数据集上都优于现有的PPO方法,这表明CORY在提高LLMs的微调性能方面具有显著的潜力。未来的研究可能会集中在如何将CORY应用于更大规模的模型和更复杂的任务,以及如何进一步提高CORY的效率和可扩展性。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

相关文章
|
23天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
15天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
20天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2572 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
18天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
3天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
2天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
159 2
|
19天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1570 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
21天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
942 14
|
3天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
185 2
|
16天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
711 12