计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14

本文涉及的产品
图片翻译,图片翻译 100张
文本翻译,文本翻译 100万字符
文档翻译,文档翻译 1千页
简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14

1. Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content?

S Qian, C Orăsan, D Kanojia, F Carmo - arXiv preprint arXiv:2410.06338, 2024

https://arxiv.org/pdf/2410.06338

大语言模型是用户生成内容机器翻译的最先进质量评估器吗?

摘要

本文研究了大型语言模型(LLMs)是否能够在没有参考翻译的情况下,作为用户生成内容(UGC)机器翻译的情感表达状态最先进的质量估计器。研究者使用了一个与情感相关的数据集,该数据集包含了人类注释的错误,并基于多维质量指标(MQM)计算了质量评估分数。通过比较几种LLMs与微调基线模型的准确性,研究发现参数高效微调(PEFT)的LLMs在分数预测方面表现更好,并且具有人类可解释的解释。然而,对LLMs输出的手动分析显示,它们在评估UGC的机器翻译时仍然存在拒绝回复提示和输出不稳定等问题。

问题背景

在机器翻译(MT)技术的最新进展中,尤其是在中英新闻翻译中,已经有声称达到人类水平的研究。然而,翻译包含情感表达的UGC,如推文,为MT系统带来了额外的挑战。

算法模型

研究采用了多种LLMs,包括开源模型和专有模型,如Llama-2-13B、Yi-34B、DeepSeek-67B和Mixtral8x7B。研究还使用了TransQuest和COMET作为基线模型。

算法创新点

  • 提出了一种新的提示模板,用于在上下文中学习和参数高效微调(PEFT)。
  • 通过在中间层添加正负解决方案的嵌入向量偏移差,显式引导LLM生成,以优化VLMs的性能。

实验效果

PEFT的LLMs在情感相关的UGC数据集上的表现优于微调模型。然而,LLMs在质量评估任务中仍然存在拒绝回复和输出不稳定的问题。

重要数据结论

  • PEFT的LLMs在没有参考翻译的情况下,预测MT质量的准确性高于微调模型。
  • LLMs在评估包含情感表达的UGC的机器翻译时,存在拒绝回复和输出不稳定的问题。

2. A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models

C Guo, F Cheng, Z Du, J Kiessling, J Ku, S Li, Z Li… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2410.07265

在大语言模型时代协作硬件和软件设计的综述

摘要

本文调查了专为大型语言模型(LLMs)设计的硬件和软件协同设计方法。LLMs的发展和部署提出了包括大量计算资源需求、高能耗和复杂软件优化在内的重大挑战。与传统的深度学习系统不同,LLMs需要针对训练和推理的独特优化策略,重点关注系统级效率。本调查分析了LLMs对硬件和算法研究的挑战和影响,探讨了算法优化、硬件设计和系统级创新。旨在提供对以LLM为中心的计算系统中的权衡和考虑因素的全面理解,指导未来人工智能的进步。

问题背景

LLMs的发展和部署面临重大挑战,包括对大量计算资源的需求、高能耗和复杂的软件优化。

算法模型

综述内容涵盖了LLMs的训练和推理,包括算法优化、硬件架构设计和系统级创新。

算法创新点

  • 探讨了LLMs的训练和推理中的算法优化和硬件设计。
  • 分析了LLMs对硬件和算法研究的影响,以及如何通过系统级创新来提高效率。

实验效果

这是一篇综述,里面没有提供具体的实验效果,而是提供了对现有研究的全面分析和未来方向的指导。

重要数据结论

  • LLMs需要独特的优化策略,重点关注系统级效率。
  • 通过算法优化和硬件设计,可以提高LLMs的效率和性能。

3. Upcycling Large Language Models into Mixture of Experts

E He, A Khattar, R Prenger, V Korthikanti, Z Yan, T Liu… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2410.07524

将大型语言模型升级为专家混合模型

摘要

本文对将预训练的密集型语言模型升级为稀疏混合专家(MoE)模型的方法进行了广泛研究。作者提出了一种新的“虚拟组”初始化方案和权重缩放方法,以实现更细粒度的MoE架构的升级。通过消融研究,作者发现升级后的模型在继续密集模型训练方面表现更好。此外,作者还展示了softmax-then-topK专家路由方法优于topK-then-softmax方法,并且更高粒度的MoEs可以帮助提高准确性。最后,作者将Nemotron-4 15B模型在1T令牌上进行了升级,并与在同一1T令牌上连续训练的相同模型进行了比较:连续训练的模型在MMLU上达到了65.3%,而升级后的模型达到了67.6%。

问题背景

尽管MoE模型越来越受欢迎,但大规模升级的最佳技术仍然不清楚。

算法模型

研究集中在将变换器的MLP层升级为MoE,这层包含了大部分计算量,并且每个令牌都单独处理,避免了kv-cache一致性问题。

算法创新点

  • 提出了一种新的“虚拟组”初始化方案,使得可以升级到细粒度的MoE架构。
  • 通过权重缩放方法,提高了粗粒度和细粒度升级后的MoE模型的损失。

实验效果

作者的升级方法比继续密集模型训练产生了更好的模型,softmax-then-topK路由方法优于topK-then-softmax方法,并且更高粒度的MoEs可以在某些训练场景中帮助提高模型准确性。

重要数据结论

  • 升级后的Nemotron-4 15B模型在MMLU上比连续训练的模型表现得更好,显示了升级不仅仅是由于模型训练的额外令牌,还由于MoE架构。

4. A Closer Look at Machine Unlearning for Large Language Models

X Yuan, T Pang, C Du, K Chen, W Zhang, M Lin - arXiv preprint arXiv:2410.08109, 2024

https://arxiv.org/pdf/2410.08109

对大型语言模型的机器遗忘进行更深入的观察

摘要

大型语言模型(LLMs)可能会记忆敏感或受版权保护的内容,引发隐私和法律问题。由于从头开始重新训练的成本很高,研究人员尝试使用机器遗忘来从LLMs中移除特定内容,同时保持整体性能。本文讨论了LLMs在机器遗忘中的几个问题,并提供了我们对可能方法的见解。为了解决遗忘后模型输出评估不足的问题,我们引入了三个额外的指标来评估令牌多样性、句子语义和事实正确性。然后,我们将遗忘方法分为非针对性和针对性,并分别讨论它们的问题。具体来说,非针对性遗忘试图近似的行为是不可预测的,可能涉及幻觉,而现有的正则化对于针对性遗忘来说是不够的。为了缓解这些问题,我们提出了使用最大化熵(ME)的目标来进行非针对性遗忘,并结合答案保留(AP)损失作为正则化,以针对遗忘。在三种场景下的实验结果,即虚构遗忘、持续遗忘和现实世界遗忘,证明了我们方法的有效性。

问题背景

LLMs可能会记忆训练语料库中的未授权内容,引发隐私和版权问题。解决这些问题对于确保LLMs在现实世界应用中的负责任部署至关重要。

算法模型

研究了LLMs的机器遗忘技术,包括非针对性和针对性遗忘方法。

算法创新点

  • 提出了使用最大化熵(ME)的目标来进行非针对性遗忘。
  • 结合答案保留(AP)损失作为正则化,以针对遗忘。

实验效果

在虚构遗忘、持续遗忘和现实世界遗忘三种场景下的实验结果证明了方法的有效性。

重要数据结论

  • 提出的方法能够有效地在保持模型性能的同时,从LLMs中移除特定内容。

5. GLOV: Guided

Large Language Models as Implicit Optimizers for Vision Language Models

MJ Mirza, M Zhao, Z Mao, S Doveh, W Lin, P Gavrikov… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2410.06154

GLOV:作为视觉语言模型的隐式优化器的引导大型语言模型

摘要

在这项工作中,我们提出了一种新的方法(GLOV),使大型语言模型(LLMs)能够作为视觉语言模型(VLMs)的隐式优化器,以增强下游视觉任务。我们的GLOV通过元提示与下游任务描述,查询适合的VLM提示(例如,用于零样本分类的CLIP)。这些提示根据它们对下游视觉任务的适应性进行排名。在每个优化步骤中,排名提示被作为上下文示例(及其准确率)提供给LLM,以装备LLM对下游VLM喜欢的提示类型的了解。此外,我们还通过在网络的中间层添加从LLM在先前优化步骤中找到的正负解决方案的嵌入向量偏移差,显式引导每个优化步骤中的LLM生成。这个偏移向量引导LLM生成朝向下游VLM偏好的语言类型,从而增强下游视觉任务的性能。我们在16个不同的数据集上使用两组VLMs(即双编码器和编码器-解码器模型)全面评估了我们的GLOV,表明发现的解决方案可以提高这些模型的识别性能,分别高达15.0%和57.5%(平均为3.8%和21.6%)。

问题背景

传统的基于梯度的优化方法之外,大型语言模型(LLMs)和视觉语言基础模型的兴起引入了

通过自然语言提示进行优化的可能性。

算法模型

提出了GLOV方法,该方法使用元提示和嵌入空间指导来驱动VLMs的提示优化。

算法创新点

  • 提出了一种新的元提示,用于迭代查询LLM以获取下游任务特定的描述。
  • 通过在网络中间层添加正负提示的嵌入向量偏移差,显式引导LLM生成。

实验效果

在16个不同的数据集上使用两组VLMs(即双编码器和编码器-解码器模型)全面评估了GLOV,表明发现的解决方案可以显著提高这些模型的识别性能。

重要数据结论

  • GLOV能够一致地发现针对下游任务的高效解决方案,从而在多个数据集上实现了显著的性能提升。

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
118 55
|
17天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
99 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
1月前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
103 50
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
1月前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
79 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
85 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
89 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
下一篇
DataWorks