1. Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content?
S Qian, C Orăsan, D Kanojia, F Carmo - arXiv preprint arXiv:2410.06338, 2024
https://arxiv.org/pdf/2410.06338
大语言模型是用户生成内容机器翻译的最先进质量评估器吗?
摘要:
本文研究了大型语言模型(LLMs)是否能够在没有参考翻译的情况下,作为用户生成内容(UGC)机器翻译的情感表达状态最先进的质量估计器。研究者使用了一个与情感相关的数据集,该数据集包含了人类注释的错误,并基于多维质量指标(MQM)计算了质量评估分数。通过比较几种LLMs与微调基线模型的准确性,研究发现参数高效微调(PEFT)的LLMs在分数预测方面表现更好,并且具有人类可解释的解释。然而,对LLMs输出的手动分析显示,它们在评估UGC的机器翻译时仍然存在拒绝回复提示和输出不稳定等问题。
问题背景:
在机器翻译(MT)技术的最新进展中,尤其是在中英新闻翻译中,已经有声称达到人类水平的研究。然而,翻译包含情感表达的UGC,如推文,为MT系统带来了额外的挑战。
算法模型:
研究采用了多种LLMs,包括开源模型和专有模型,如Llama-2-13B、Yi-34B、DeepSeek-67B和Mixtral8x7B。研究还使用了TransQuest和COMET作为基线模型。
算法创新点:
- 提出了一种新的提示模板,用于在上下文中学习和参数高效微调(PEFT)。
- 通过在中间层添加正负解决方案的嵌入向量偏移差,显式引导LLM生成,以优化VLMs的性能。
实验效果:
PEFT的LLMs在情感相关的UGC数据集上的表现优于微调模型。然而,LLMs在质量评估任务中仍然存在拒绝回复和输出不稳定的问题。
重要数据结论:
- PEFT的LLMs在没有参考翻译的情况下,预测MT质量的准确性高于微调模型。
- LLMs在评估包含情感表达的UGC的机器翻译时,存在拒绝回复和输出不稳定的问题。
2. A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models
C Guo, F Cheng, Z Du, J Kiessling, J Ku, S Li, Z Li… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2410.07265
在大语言模型时代协作硬件和软件设计的综述
摘要:
本文调查了专为大型语言模型(LLMs)设计的硬件和软件协同设计方法。LLMs的发展和部署提出了包括大量计算资源需求、高能耗和复杂软件优化在内的重大挑战。与传统的深度学习系统不同,LLMs需要针对训练和推理的独特优化策略,重点关注系统级效率。本调查分析了LLMs对硬件和算法研究的挑战和影响,探讨了算法优化、硬件设计和系统级创新。旨在提供对以LLM为中心的计算系统中的权衡和考虑因素的全面理解,指导未来人工智能的进步。
问题背景:
LLMs的发展和部署面临重大挑战,包括对大量计算资源的需求、高能耗和复杂的软件优化。
算法模型:
综述内容涵盖了LLMs的训练和推理,包括算法优化、硬件架构设计和系统级创新。
算法创新点:
- 探讨了LLMs的训练和推理中的算法优化和硬件设计。
- 分析了LLMs对硬件和算法研究的影响,以及如何通过系统级创新来提高效率。
实验效果:
这是一篇综述,里面没有提供具体的实验效果,而是提供了对现有研究的全面分析和未来方向的指导。
重要数据结论:
- LLMs需要独特的优化策略,重点关注系统级效率。
- 通过算法优化和硬件设计,可以提高LLMs的效率和性能。
3. Upcycling Large Language Models into Mixture of Experts
E He, A Khattar, R Prenger, V Korthikanti, Z Yan, T Liu… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2410.07524
将大型语言模型升级为专家混合模型
摘要:
本文对将预训练的密集型语言模型升级为稀疏混合专家(MoE)模型的方法进行了广泛研究。作者提出了一种新的“虚拟组”初始化方案和权重缩放方法,以实现更细粒度的MoE架构的升级。通过消融研究,作者发现升级后的模型在继续密集模型训练方面表现更好。此外,作者还展示了softmax-then-topK专家路由方法优于topK-then-softmax方法,并且更高粒度的MoEs可以帮助提高准确性。最后,作者将Nemotron-4 15B模型在1T令牌上进行了升级,并与在同一1T令牌上连续训练的相同模型进行了比较:连续训练的模型在MMLU上达到了65.3%,而升级后的模型达到了67.6%。
问题背景:
尽管MoE模型越来越受欢迎,但大规模升级的最佳技术仍然不清楚。
算法模型:
研究集中在将变换器的MLP层升级为MoE,这层包含了大部分计算量,并且每个令牌都单独处理,避免了kv-cache一致性问题。
算法创新点:
- 提出了一种新的“虚拟组”初始化方案,使得可以升级到细粒度的MoE架构。
- 通过权重缩放方法,提高了粗粒度和细粒度升级后的MoE模型的损失。
实验效果:
作者的升级方法比继续密集模型训练产生了更好的模型,softmax-then-topK路由方法优于topK-then-softmax方法,并且更高粒度的MoEs可以在某些训练场景中帮助提高模型准确性。
重要数据结论:
- 升级后的Nemotron-4 15B模型在MMLU上比连续训练的模型表现得更好,显示了升级不仅仅是由于模型训练的额外令牌,还由于MoE架构。
4. A Closer Look at Machine Unlearning for Large Language Models
X Yuan, T Pang, C Du, K Chen, W Zhang, M Lin - arXiv preprint arXiv:2410.08109, 2024
https://arxiv.org/pdf/2410.08109
对大型语言模型的机器遗忘进行更深入的观察
摘要:
大型语言模型(LLMs)可能会记忆敏感或受版权保护的内容,引发隐私和法律问题。由于从头开始重新训练的成本很高,研究人员尝试使用机器遗忘来从LLMs中移除特定内容,同时保持整体性能。本文讨论了LLMs在机器遗忘中的几个问题,并提供了我们对可能方法的见解。为了解决遗忘后模型输出评估不足的问题,我们引入了三个额外的指标来评估令牌多样性、句子语义和事实正确性。然后,我们将遗忘方法分为非针对性和针对性,并分别讨论它们的问题。具体来说,非针对性遗忘试图近似的行为是不可预测的,可能涉及幻觉,而现有的正则化对于针对性遗忘来说是不够的。为了缓解这些问题,我们提出了使用最大化熵(ME)的目标来进行非针对性遗忘,并结合答案保留(AP)损失作为正则化,以针对遗忘。在三种场景下的实验结果,即虚构遗忘、持续遗忘和现实世界遗忘,证明了我们方法的有效性。
问题背景:
LLMs可能会记忆训练语料库中的未授权内容,引发隐私和版权问题。解决这些问题对于确保LLMs在现实世界应用中的负责任部署至关重要。
算法模型:
研究了LLMs的机器遗忘技术,包括非针对性和针对性遗忘方法。
算法创新点:
- 提出了使用最大化熵(ME)的目标来进行非针对性遗忘。
- 结合答案保留(AP)损失作为正则化,以针对遗忘。
实验效果:
在虚构遗忘、持续遗忘和现实世界遗忘三种场景下的实验结果证明了方法的有效性。
重要数据结论:
- 提出的方法能够有效地在保持模型性能的同时,从LLMs中移除特定内容。
5. GLOV: Guided
Large Language Models as Implicit Optimizers for Vision Language Models
MJ Mirza, M Zhao, Z Mao, S Doveh, W Lin, P Gavrikov… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2410.06154
GLOV:作为视觉语言模型的隐式优化器的引导大型语言模型
摘要:
在这项工作中,我们提出了一种新的方法(GLOV),使大型语言模型(LLMs)能够作为视觉语言模型(VLMs)的隐式优化器,以增强下游视觉任务。我们的GLOV通过元提示与下游任务描述,查询适合的VLM提示(例如,用于零样本分类的CLIP)。这些提示根据它们对下游视觉任务的适应性进行排名。在每个优化步骤中,排名提示被作为上下文示例(及其准确率)提供给LLM,以装备LLM对下游VLM喜欢的提示类型的了解。此外,我们还通过在网络的中间层添加从LLM在先前优化步骤中找到的正负解决方案的嵌入向量偏移差,显式引导每个优化步骤中的LLM生成。这个偏移向量引导LLM生成朝向下游VLM偏好的语言类型,从而增强下游视觉任务的性能。我们在16个不同的数据集上使用两组VLMs(即双编码器和编码器-解码器模型)全面评估了我们的GLOV,表明发现的解决方案可以提高这些模型的识别性能,分别高达15.0%和57.5%(平均为3.8%和21.6%)。
问题背景:
传统的基于梯度的优化方法之外,大型语言模型(LLMs)和视觉语言基础模型的兴起引入了
通过自然语言提示进行优化的可能性。
算法模型:
提出了GLOV方法,该方法使用元提示和嵌入空间指导来驱动VLMs的提示优化。
算法创新点:
- 提出了一种新的元提示,用于迭代查询LLM以获取下游任务特定的描述。
- 通过在网络中间层添加正负提示的嵌入向量偏移差,显式引导LLM生成。
实验效果:
在16个不同的数据集上使用两组VLMs(即双编码器和编码器-解码器模型)全面评估了GLOV,表明发现的解决方案可以显著提高这些模型的识别性能。
重要数据结论:
- GLOV能够一致地发现针对下游任务的高效解决方案,从而在多个数据集上实现了显著的性能提升。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。