计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02（下）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02（上）+https://developer.aliyun.com/article/1628929

实验效果：

在多个数据集和不同LLM家族及模型大小的标准基准测试中，我们的方法在困惑度和零样本准确度方面均优于现有结构化剪枝基线。
例如，在WikiText2数据集上，与LLM-Pruner和SliceGPT相比，我们的方法在80%继承比率下分别将困惑度提高了4.15和1.65。
在不同继承比率下，我们的方法在减少GPU内存使用和加速推理方面表现出色。

重要数据与结论：

实验表明，我们提出的方法在多个数据集和不同LLM家族中均优于现有的结构化剪枝方法。此外，我们在GPU上实现了显著的内存减少和推理加速，证明了我们方法的效率。

4. Post-hoc Reward Calibration: A Case Study on Length Bias

Authors: Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov

https://arxiv.org/abs/2409.17407

事后奖励校准：以长度偏差为例的研究

摘要：

本文介绍了一种新的框架——事后奖励校准（Post-hoc Reward Calibration, PoT），旨在增强大型语言模型（LLMs）的鲁棒性和可解释性。通过将人类反馈转化为训练信号来优化LLM行为的奖励模型（RM）可能会因为训练数据中的虚假相关性而产生偏差，例如基于长度或风格而非真实质量来偏好输出。这些偏差可能导致错误的输出排名、次优模型评估，并在LLMs的对齐过程中放大不良行为。本文提出了一种无需额外数据和训练即可校正这些偏差的方法。

研究背景：

人类反馈强化学习（RLHF）通过将人类偏好整合到训练循环中，使模型与期望的行为和价值观对齐。在这个过程中，奖励模型（RM）是关键组成部分，它将人类反馈转化为优化LLMs的信号。然而，RM可能会利用训练数据中的虚假相关性，导致偏差。

问题与挑战：

RM可能会因为训练数据中的虚假相关性而产生偏差，例如偏好更长的输出或特定风格，而不是基于输出的真实质量。这些偏差可能导致错误的输出排名和次优模型评估。

如何解决：

本文提出了事后奖励校准（PoT），这是一种无需额外数据和训练即可校正RM偏差的方法。通过估计偏差项并将其移除，从而近似真实的奖励。

创新点：

提出了一种直观的方法来估计偏差项，并据此校准奖励信号。
引入局部加权回归（Locally Weighted Regression, LWR）来更一般和鲁棒地估计偏差。
针对普遍存在的长度偏差进行了验证，并通过三个实验设置展示了一致的改进。

算法模型：

PoT框架首先使用LLM生成分析报告，然后通过自定义解释器将其转换为一阶逻辑构造，供定理证明器检查。核心是一种基于JSON的领域特定语言（DSL），平衡了精确的逻辑结构和直观的人类概念。

实验效果：

在RewardBench数据集上，33个奖励模型的平均性能提升了3.11。
在AlpacaEval基准测试中，与GPT-4评估和人类偏好的一致性得到了增强。
在多个LLM-RM组合中，RLHF过程的长度控制胜率得到了提高。

重要数据与结论：

实验结果表明，PoT方法在多个基准测试中取得了显著的性能提升，并且在不同的实验设置中显示出一致的改进。

推荐阅读指数：★★★★☆

5. MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Authors: Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff

Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang

https://arxiv.org/abs/2409.17481

MaskLLM: 面向大型语言模型的可学习半结构化稀疏性

摘要：

大型语言模型（LLMs）因其庞大的参数数量而著称，这通常导致显著的冗余。本文介绍了MaskLLM，这是一种可学习的剪枝方法，它在LLMs中建立了半结构化（或称为“N:M”）稀疏性，旨在减少推理过程中的计算开销。MaskLLM不是开发新的重要性标准，而是通过Gumbel Softmax采样，将N:M模式显式地建模为可学习分布。这种方法便于在大规模数据集上进行端到端训练，并提供两个显著优势：1）高质量的掩码 - 方法有效地扩展到大型数据集并学习准确的掩码；2）可转移性 - 掩码分布的概率建模使得稀疏性能够跨域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM，包括LLaMA-2、Nemotron-4和GPT-3，参数量从843M到15B不等，实验结果表明，与现有技术相比，我们的方法在标准基准测试中有显著改进。

研究背景：

大型语言模型（LLMs）在各个领域的人工智能研究中表现出色。然而，它们的计算和存储成本限制了LLMs在多种设备上的部署。为了解决这些挑战，已经开发了各种压缩技术，包括权重剪枝、量化和知识蒸馏。

问题与挑战：

尽管通过优化权重来压缩LLMs的方法取得了进展，但这些方法通常集中于权重优化，忽视了对最优架构的探索。此外，传统的架构搜索方法由于复杂性高和参数众多，在LLMs上的应用受到限制。

如何解决：

提出了一种无需训练的架构搜索框架，通过计算权重的重要性来发现LLMs内部的高效LLM架构。首先确定一个合适的初始架构，然后应用基于进化的算法全局搜索高效子网。

创新点：

提出了一种可学习方法，通过在大规模数据集上进行端到端训练来学习准确的掩码。
提出了一种掩码重构算法，通过仅使用少量的校准数据来修正继承的权重，从而提高子网的有效性。
引入了先验掩码的概念，允许通过迁移学习快速跨域或任务转移稀疏性。

算法模型：

MaskLLM框架包括三个关键组件：搜索初始化、搜索流程和权重重构。首先，基于权重重要性构建初始有效架构，然后使用基于进化的搜索方法进行全面搜索，最后引入重构方法在不重新训练的情况下通过前向传递改进子网性能。

算法伪代码:

实验效果：

在WikiText2数据集上，与现有技术相比，我们的方法在保持参数冻结的情况下，实现了显著更低的困惑度（PPL）。
在多个LLM家族和大小的模型上，我们的方法在多个基准测试中显示出优于现有技术的稀疏性压缩性能。

重要数据与结论：

实验结果表明，MaskLLM方法在多个基准测试中取得了显著的性能提升，并且在不同的实验设置中显示出一致的改进。

6. Human Mobility Modeling with Limited Information via Large Language Models

Authors: Yifan Liu, Xishun Liao, Haoxuan Ma, Brian Yueshuai He, Chris Stanford, and Jiaqi Ma

https://arxiv.org/abs/2409.17495

通过大型语言模型在有限信息的情况下对人类移动性进行建模

摘要：

理解人类移动模式在交通建模领域一直是一个复杂的挑战。传统的基于活动的模型和基于学习的人类移动建模算法受到数据集的可用性和质量的限制。此外，当前的研究主要集中在空间-时间旅行模式上，而缺乏对活动之间语义信息的理解，这对于模拟活动之间的相互依赖性至关重要。在本文中，我们提出了一个创新的大型语言模型（LLM）支持的人类移动建模框架。我们的方法显著减少了对详细人类移动统计数据的依赖，利用个体的基本社会人口统计信息来生成他们的日常移动模式。我们使用NHTS和SCAGABM数据集验证了我们的结果，证明了我们的框架在不同地理位置的有效建模和强大的适应性。

研究背景：

准确生成人类移动模式对于交通系统、城市规划、公共卫生政策和零售策略等领域有着深远的影响。传统的基于活动模型（ABMs）通过模拟基于个体和家庭社会经济特征的日常活动来塑造我们对人类移动的理解。然而，ABMs需要大量的本地数据输入，并依赖于对人类活动模式和经济行为的众多假设。

问题与挑战：

现有的基于学习的方法依赖于从移动设备或社交媒体平台收集的大量数据集，这些方法的有效性依赖于数据的量和质量。这些方法的挑战包括对公民移动数据的大量需求，这引发了隐私问题，以及难以适应城市环境的突然变化。

如何解决：

提出了一种基于大型语言模型（LLM）的框架，利用个体的社会人口统计信息来生成他们的日常活动链。该方法减少了对高质量训练数据集的依赖，使用基本的社会人口统计信息来生成日常移动模式。

创新点：

展示了LLMs仅使用个体的社会人口统计信息和地区的可访问统计数据来生成基于位置的移动模式的能力。
引入了一种语义方法来解决移动模式生成问题，相比于传统的基于位置的轨迹生成方法，提供了更具可解释性的人类移动建模。
首次使用LLMs进行活动链生成任务，这种创新使用LLMs的方法为模拟复杂行为模式提供了新的可能性。

算法模型：

该框架利用LLMs的强大推理和生成能力，通过提供社会人口统计信息来生成代表个体日常活动序列的活动链。该方法利用LLMs对复杂序列的理解能力，生成具有强解释性和依赖性的活动链。

实验效果：

在NHTS和SCAG数据集上的实验结果显示，该方法在模拟移动模式方面具有有效性，并且与GPT-4评估和人类偏好的一致性得到了增强。
在不同的地理位置和不同的数据集上，该方法显示出强大的适应性和准确性。

重要数据与结论：

使用LLMs，该方法在不需要大量历史数据和对人类行为的假设的情况下，成功地生成了准确的活动链。
在与NHTS数据集的比较中，Jensen-Shannon Divergence (JSD)最低为0.011，显示了与实际数据的高度一致性。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02（下）

实验效果：

重要数据与结论：

推荐阅读指数：

推荐理由：

4. Post-hoc Reward Calibration: A Case Study on Length Bias

摘要：

研究背景：

问题与挑战：

如何解决：

创新点：

算法模型：

实验效果：

重要数据与结论：

推荐阅读指数：★★★★☆

推荐理由：

5. MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

摘要：

研究背景：

问题与挑战：

如何解决：

创新点：

算法模型：

实验效果：

重要数据与结论：

推荐阅读指数：

推荐理由：

6. Human Mobility Modeling with Limited Information via Large Language Models

摘要：

研究背景：

问题与挑战：

如何解决：

创新点：

算法模型：

实验效果：

重要数据与结论：

推荐阅读指数：

推荐理由：

后记

热门文章

最新文章

相关课程

相关电子书