计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01(上)+https://developer.aliyun.com/article/1628925

实验效果

在三个英语和一个德语检索数据集上,该方法在NDCG@10, MRR@100, Recall@100等指标上显著提高了零样本检索性能。与现有的密集检索器相比,该方法在模型大小至少小38%的情况下,分别在NDCG@10上提高了1.96%, 4.62%, 9.52%。

推荐阅读指数

8/10

推荐理由

这篇文章提出了一种创新的无监督文本表示学习方法,通过指令调整来增强语料库表示,对于希望在没有大量标记数据的情况下改进检索系统的人来说,这是一篇值得阅读的文章。

4. SynChart: Synthesizing Charts from Language Models

Authors: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao,

Yunsheng Li

https://arxiv.org/abs/2409.16517

从语言模型合成图表:利用元学习合成图表数据集

摘要

随着GPT-4V(O)的发布,使用它为多模态任务生成伪标签变得流行。然而,如何从基础的大型语言模型(LLMs)构建这样的高级模型仍然是一个谜。这项工作探索了仅使用LLMs进行数据生成的潜力,并开发了专注于图表理解的有竞争力的多模态模型。研究者们构建了一个大规模的图表数据集SynChart,包含约400万个多样化的图表图像,超过7500万个密集注释,包括数据表、代码、描述和问答集。使用该数据集训练了一个4.2B的图表专家模型,在ChartQA任务上达到了接近GPT-4O的性能,超过了GPT-4V。

创新点

  1. 数据集构建:提出了一种从LLMs合成数据的方法,创建了大规模的图表数据集SynChart。
  2. 多模态模型:专注于图表理解的多模态模型,而不是构建通用的多模态模型。
  3. 数据生成方法:详细分析了不同的数据收集方法,并选择了合成数据作为主要数据源。

算法模型

  • 基础模型:使用Phi3.5 (3.8B)和CLIP-L (0.3B)作为基础模型。
  • 数据集:SynChart,包含约400万个图表图像,每个图像都有丰富的注释。
  • 训练过程:分为预训练和后训练两个阶段,使用包括代码、数据表和描述的注释进行预训练,后训练阶段主要依赖问题和答案的注释。

实验效果

  • ChartQA基准测试:在ChartQA基准测试中,训练的模型达到了接近GPT-4O的性能水平,超过了所有公共小型模型。
  • 数据组件贡献:通过添加数据组件并评估其贡献,实现了约30%的ChartQA性能提升。
  • 扩展性:使用更多来自SynChart的数据进行后训练可以提高性能,表明模型尚未达到性能饱和。

推荐阅读指数:

★★★★☆

推荐理由

这篇论文提供了一种创新的方法来构建大规模的图表数据集,并展示了如何利用这些数据集来训练高效的多模态模型。

5. Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference

Authors: Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun

https://arxiv.org/abs/2409.16560

动态宽度推测性束解码:高效的大型语言模型推理

摘要

本文提出了一种名为动态宽度推测性束解码(DSBD)的新方法,通过结合推测性解码和束采样来提高大型语言模型(LLMs)的推理效率。该方法通过使用小型辅助模型生成草稿序列,然后由大型模型并行验证这些序列,从而在保持输出质量的同时显著提高了推理速度。

研究背景

大型语言模型(LLMs)在许多实际任务中表现出色,但其自回归特性导致推理过程缓慢且成本高昂。推测性解码作为一种加速LLMs推理的有前途的技术,通过使用小型辅助模型生成草稿令牌,然后由大型模型验证,从而减少推理时间。

问题与挑战

  1. 如何在大型模型的分布中生成多个序列,给定小型模型的草稿序列。
  2. 如何动态优化束的数量以平衡效率和准确性。
  3. 如何高效并行验证多个草稿。
  4. 如何解决束采样中固有的额外内存成本。

如何解决

  • 提出了一种新的草稿和验证方案,根据小型模型的束采样轨迹生成多个序列,遵循大型模型的分布。
  • 引入了一种自适应机制,根据上下文动态调整束的数量,优化效率和效果。
  • 扩展了基于树的并行验证技术,同时处理多个树,加速验证过程。
  • 通过仅存储一组键值缓存来简化算法,以减少束采样的内存开销。

创新点

  • 动态宽度调整:根据上下文动态调整束宽度,以优化效率和准确性。
  • 基于森林的并行验证:扩展了现有的基于树的并行验证技术,以同时处理多个树。
  • 内存成本降低:通过仅选择输出束中最低困惑度的一个作为下一个迭代的输入束,从而将内存使用量降低到与多项式采样相当的水平。

算法模型

  • 推测性解码:使用小型模型生成草稿令牌,然后由大型模型验证。
  • 束采样:在每一步中维持多个候选序列(束),以提高生成输出的多样性和质量。
  • DSBD:结合了推测性解码和束采样,通过一系列创新解决了相关挑战。

算法伪代码:

实验效果

  • 速度提升:与束采样相比,DSBD实现了1.5-1.9倍的速度提升。
  • 能效降低:与束采样相比,DSBD实现了1.8-2.5倍的能效降低。
  • 输出质量:DSBD能够产生比推测性解码更高质量的输出,同时保持类似的时间、内存和能效成本。

推荐阅读指数:

★★★★☆

推荐理由

这篇论文针对大型语言模型的推理效率问题提出了一种创新的解决方案,通过动态调整束宽度和优化验证过程,显著提高了推理速度和能效,同时保持了输出质量。

6. Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels

Authors: Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George

Shih, Yifan Peng

https://arxiv.org/abs/2409.16563

通过在弱标签上微调轻量级大型语言模型来增强放射学报告中的疾病检测

摘要

尽管在医学领域应用大型语言模型(LLMs)取得了显著进展,但模型大小的限制和缺乏针对特定群体的标记数据集等挑战仍然存在。本研究探讨了通过使用合成标签对轻量级LLM(例如Llama 3.1-8B)进行微调以改善其性能的可能性。在任务特定的合成标签质量较高时(例如,由GPT4o生成),Llama 3.1-8B在开放式疾病检测任务上达到了令人满意的性能,微F1分数为0.91。相反,当任务相关的合成标签质量较低时(例如,来自MIMIC-CXR数据集),经过微调的Llama 3.1-8B能够超越其嘈杂的教师标签(微F1分数0.67对比0.63),表明模型具有强大的内在潜力。

研究背景

在医学领域应用LLMs已有许多研究,但在实际应用中需要克服隐私、计算和技术上的限制。此外,现有的公共数据集通常是疾病特定的,不能反映医院患者群体的多样性。医院拥有大量患者数据,但可用的标签通常是质量较差或完全缺失的。

问题与挑战

  • 模型限制:商业LLMs的使用受到隐私问题的限制,且部署大型、强大的LLMs在财务、计算和技术方面对医院构成挑战。
  • 数据限制:公共数据集通常疾病特定,缺乏多样性;医院数据标签质量差或缺失。

如何解决

  • 微调轻量级LLM:使用合成或弱标签数据对轻量级LLM进行微调。
  • 多任务学习框架:结合结构化和非结构化任务,提高放射学报告中疾病检测的性能。

创新点

  • 轻量级LLM的微调:通过指令学习在弱标签上微调轻量级LLM。
  • 混合数据集方法:通过混合不同数据集的指令集,优化微调LLM在两项任务上的性能。

算法模型

  • Llama 3.1-8B:作为基础模型,采用解码器仅模型,自回归地处理输入并生成文本。
  • 多任务学习:结合多项选择疾病分类和开放式疾病检测任务进行联合微调。

实验效果

  • 多项选择疾病分类:微调后的Llama 3.1-8B在人类策划标签上的性能显著提高(0.67 vs 0.54)。
  • 开放式疾病检测:微调后的Llama 3.1-8B在开放式疾病检测任务上接近GPT-4o的性能(F1分数0.91)。

推荐阅读指数:

★★★★☆

推荐理由

这篇论文展示了如何通过微调轻量级LLM来提高其在医学领域的性能,特别是在放射学报告的疾病检测上。研究结果表明,即使是在标签质量较低的情况下,适当的微调也能显著提高模型性能,这对希望在医疗领域应用LLMs的研究人员和实践者来说非常有价值。

7. Entailment-Driven Privacy Policy Classification with LLMs

Authors: Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban

Mahanti, Aruna Seneviratne

https://arxiv.org/abs/2409.16621

基于蕴含关系的隐私政策分类的LLM框架

摘要

许多在线服务为用户提供隐私政策,但由于这些文档通常冗长且复杂,大多数用户根本不阅读它们,导致在不知情的情况下同意数据收集。尽管已有尝试通过总结、提供自动注释或标签,或提供聊天界面来询问具体问题来使隐私政策更用户友好,但随着大型语言模型(LLMs)的进步,有机会开发更有效的工具来解析隐私政策并帮助用户做出知情决策。在本文中,我们提出了一个基于蕴含的LLM框架,将隐私政策段落分类成用户易于理解的标签。结果表明,我们的框架在平均F1分数上比传统LLM方法提高了11.2%,并且提供了固有的可解释和有意义的预测。

研究背景

当前,许多在线服务和应用程序收集大量个人数据,并且这些数据经常用于个性化、广告、分析和用户画像等目的。此外,这些数据可能会在用户不知情的情况下与第三方共享或出售,带来严重的隐私风险。通常,这类数据收集和共享的详细信息在服务的隐私政策中概述,并且在许多司法管辖区向用户提供隐私政策是强制性的。然而,这些政策通常冗长、复杂且使用复杂的法律术语编写,导致用户很少阅读或理解它们。

问题与挑战

  • 隐私政策的复杂性:隐私政策文档通常很长,难以理解,导致用户在不知情的情况下同意数据收集。
  • 提高用户理解度:需要更有效的方法来解析隐私政策,帮助用户做出知情决策。

如何解决

  • 基于蕴含的LLM框架:提出了一个基于蕴含的LLM框架,通过额外的“蕴含”阶段来过滤LLMs的初始分类,类似于人类选择或丢弃特定的LLM生成的输出。

创新点

  • 蕴含驱动的分类:通过引入蕴含验证阶段,增强了基于LLM的分类框架,提高了分类的准确性和可解释性。
  • 多阶段处理:包括解释分类器、空白填充器和蕴含验证器,模仿人类推理过程。

算法模型

  • 解释分类器:生成类别预测和对应原因。
  • 空白填充器:尝试预测被掩盖部分的最佳文本块。
  • 蕴含验证器:基于前两个阶段的输出决定是否接受类别预测和原始推理。

实验效果

  • 性能提升:与T5、GPT4和LLaMA2等传统LLM方法相比,平均F1分数分别提高了8.6%、14.5%和10.5%。
  • 可解释性:57.9%的预测生成的推理文本与法律专家的推理有50%或更多的重叠。

推荐阅读指数:

★★★★☆

推荐理由

这篇论文提出了一种新颖的方法来解析和分类隐私政策,使其更易于用户理解。该方法通过引入蕴含验证阶段,提高了LLMs在隐私政策分类任务中的性能和可解释性,对于希望利用LLMs来改善隐私政策可读性的研究人员和实践者来说非常有价值。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
13天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
38 7
|
9天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
12天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
8天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
36 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
28 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
43 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
13天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
31 1
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践