计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01(上)+https://developer.aliyun.com/article/1628925
实验效果
在三个英语和一个德语检索数据集上,该方法在NDCG@10, MRR@100, Recall@100等指标上显著提高了零样本检索性能。与现有的密集检索器相比,该方法在模型大小至少小38%的情况下,分别在NDCG@10上提高了1.96%, 4.62%, 9.52%。
推荐阅读指数
8/10
推荐理由
这篇文章提出了一种创新的无监督文本表示学习方法,通过指令调整来增强语料库表示,对于希望在没有大量标记数据的情况下改进检索系统的人来说,这是一篇值得阅读的文章。
4. SynChart: Synthesizing Charts from Language Models
Authors: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao,
Yunsheng Li
https://arxiv.org/abs/2409.16517
从语言模型合成图表:利用元学习合成图表数据集
摘要
随着GPT-4V(O)的发布,使用它为多模态任务生成伪标签变得流行。然而,如何从基础的大型语言模型(LLMs)构建这样的高级模型仍然是一个谜。这项工作探索了仅使用LLMs进行数据生成的潜力,并开发了专注于图表理解的有竞争力的多模态模型。研究者们构建了一个大规模的图表数据集SynChart,包含约400万个多样化的图表图像,超过7500万个密集注释,包括数据表、代码、描述和问答集。使用该数据集训练了一个4.2B的图表专家模型,在ChartQA任务上达到了接近GPT-4O的性能,超过了GPT-4V。
创新点
- 数据集构建:提出了一种从LLMs合成数据的方法,创建了大规模的图表数据集SynChart。
- 多模态模型:专注于图表理解的多模态模型,而不是构建通用的多模态模型。
- 数据生成方法:详细分析了不同的数据收集方法,并选择了合成数据作为主要数据源。
算法模型
- 基础模型:使用Phi3.5 (3.8B)和CLIP-L (0.3B)作为基础模型。
- 数据集:SynChart,包含约400万个图表图像,每个图像都有丰富的注释。
- 训练过程:分为预训练和后训练两个阶段,使用包括代码、数据表和描述的注释进行预训练,后训练阶段主要依赖问题和答案的注释。
实验效果
- ChartQA基准测试:在ChartQA基准测试中,训练的模型达到了接近GPT-4O的性能水平,超过了所有公共小型模型。
- 数据组件贡献:通过添加数据组件并评估其贡献,实现了约30%的ChartQA性能提升。
- 扩展性:使用更多来自SynChart的数据进行后训练可以提高性能,表明模型尚未达到性能饱和。
推荐阅读指数:
★★★★☆
推荐理由
这篇论文提供了一种创新的方法来构建大规模的图表数据集,并展示了如何利用这些数据集来训练高效的多模态模型。
5. Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference
Authors: Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun
https://arxiv.org/abs/2409.16560
动态宽度推测性束解码:高效的大型语言模型推理
摘要
本文提出了一种名为动态宽度推测性束解码(DSBD)的新方法,通过结合推测性解码和束采样来提高大型语言模型(LLMs)的推理效率。该方法通过使用小型辅助模型生成草稿序列,然后由大型模型并行验证这些序列,从而在保持输出质量的同时显著提高了推理速度。
研究背景
大型语言模型(LLMs)在许多实际任务中表现出色,但其自回归特性导致推理过程缓慢且成本高昂。推测性解码作为一种加速LLMs推理的有前途的技术,通过使用小型辅助模型生成草稿令牌,然后由大型模型验证,从而减少推理时间。
问题与挑战
- 如何在大型模型的分布中生成多个序列,给定小型模型的草稿序列。
- 如何动态优化束的数量以平衡效率和准确性。
- 如何高效并行验证多个草稿。
- 如何解决束采样中固有的额外内存成本。
如何解决
- 提出了一种新的草稿和验证方案,根据小型模型的束采样轨迹生成多个序列,遵循大型模型的分布。
- 引入了一种自适应机制,根据上下文动态调整束的数量,优化效率和效果。
- 扩展了基于树的并行验证技术,同时处理多个树,加速验证过程。
- 通过仅存储一组键值缓存来简化算法,以减少束采样的内存开销。
创新点
- 动态宽度调整:根据上下文动态调整束宽度,以优化效率和准确性。
- 基于森林的并行验证:扩展了现有的基于树的并行验证技术,以同时处理多个树。
- 内存成本降低:通过仅选择输出束中最低困惑度的一个作为下一个迭代的输入束,从而将内存使用量降低到与多项式采样相当的水平。
算法模型
- 推测性解码:使用小型模型生成草稿令牌,然后由大型模型验证。
- 束采样:在每一步中维持多个候选序列(束),以提高生成输出的多样性和质量。
- DSBD:结合了推测性解码和束采样,通过一系列创新解决了相关挑战。
算法伪代码:
实验效果
- 速度提升:与束采样相比,DSBD实现了1.5-1.9倍的速度提升。
- 能效降低:与束采样相比,DSBD实现了1.8-2.5倍的能效降低。
- 输出质量:DSBD能够产生比推测性解码更高质量的输出,同时保持类似的时间、内存和能效成本。
推荐阅读指数:
★★★★☆
推荐理由
这篇论文针对大型语言模型的推理效率问题提出了一种创新的解决方案,通过动态调整束宽度和优化验证过程,显著提高了推理速度和能效,同时保持了输出质量。
6. Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels
Authors: Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George
Shih, Yifan Peng
https://arxiv.org/abs/2409.16563
通过在弱标签上微调轻量级大型语言模型来增强放射学报告中的疾病检测
摘要
尽管在医学领域应用大型语言模型(LLMs)取得了显著进展,但模型大小的限制和缺乏针对特定群体的标记数据集等挑战仍然存在。本研究探讨了通过使用合成标签对轻量级LLM(例如Llama 3.1-8B)进行微调以改善其性能的可能性。在任务特定的合成标签质量较高时(例如,由GPT4o生成),Llama 3.1-8B在开放式疾病检测任务上达到了令人满意的性能,微F1分数为0.91。相反,当任务相关的合成标签质量较低时(例如,来自MIMIC-CXR数据集),经过微调的Llama 3.1-8B能够超越其嘈杂的教师标签(微F1分数0.67对比0.63),表明模型具有强大的内在潜力。
研究背景
在医学领域应用LLMs已有许多研究,但在实际应用中需要克服隐私、计算和技术上的限制。此外,现有的公共数据集通常是疾病特定的,不能反映医院患者群体的多样性。医院拥有大量患者数据,但可用的标签通常是质量较差或完全缺失的。
问题与挑战
- 模型限制:商业LLMs的使用受到隐私问题的限制,且部署大型、强大的LLMs在财务、计算和技术方面对医院构成挑战。
- 数据限制:公共数据集通常疾病特定,缺乏多样性;医院数据标签质量差或缺失。
如何解决
- 微调轻量级LLM:使用合成或弱标签数据对轻量级LLM进行微调。
- 多任务学习框架:结合结构化和非结构化任务,提高放射学报告中疾病检测的性能。
创新点
- 轻量级LLM的微调:通过指令学习在弱标签上微调轻量级LLM。
- 混合数据集方法:通过混合不同数据集的指令集,优化微调LLM在两项任务上的性能。
算法模型
- Llama 3.1-8B:作为基础模型,采用解码器仅模型,自回归地处理输入并生成文本。
- 多任务学习:结合多项选择疾病分类和开放式疾病检测任务进行联合微调。
实验效果
- 多项选择疾病分类:微调后的Llama 3.1-8B在人类策划标签上的性能显著提高(0.67 vs 0.54)。
- 开放式疾病检测:微调后的Llama 3.1-8B在开放式疾病检测任务上接近GPT-4o的性能(F1分数0.91)。
推荐阅读指数:
★★★★☆
推荐理由
这篇论文展示了如何通过微调轻量级LLM来提高其在医学领域的性能,特别是在放射学报告的疾病检测上。研究结果表明,即使是在标签质量较低的情况下,适当的微调也能显著提高模型性能,这对希望在医疗领域应用LLMs的研究人员和实践者来说非常有价值。
7. Entailment-Driven Privacy Policy Classification with LLMs
Authors: Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban
Mahanti, Aruna Seneviratne
https://arxiv.org/abs/2409.16621
基于蕴含关系的隐私政策分类的LLM框架
摘要
许多在线服务为用户提供隐私政策,但由于这些文档通常冗长且复杂,大多数用户根本不阅读它们,导致在不知情的情况下同意数据收集。尽管已有尝试通过总结、提供自动注释或标签,或提供聊天界面来询问具体问题来使隐私政策更用户友好,但随着大型语言模型(LLMs)的进步,有机会开发更有效的工具来解析隐私政策并帮助用户做出知情决策。在本文中,我们提出了一个基于蕴含的LLM框架,将隐私政策段落分类成用户易于理解的标签。结果表明,我们的框架在平均F1分数上比传统LLM方法提高了11.2%,并且提供了固有的可解释和有意义的预测。
研究背景
当前,许多在线服务和应用程序收集大量个人数据,并且这些数据经常用于个性化、广告、分析和用户画像等目的。此外,这些数据可能会在用户不知情的情况下与第三方共享或出售,带来严重的隐私风险。通常,这类数据收集和共享的详细信息在服务的隐私政策中概述,并且在许多司法管辖区向用户提供隐私政策是强制性的。然而,这些政策通常冗长、复杂且使用复杂的法律术语编写,导致用户很少阅读或理解它们。
问题与挑战
- 隐私政策的复杂性:隐私政策文档通常很长,难以理解,导致用户在不知情的情况下同意数据收集。
- 提高用户理解度:需要更有效的方法来解析隐私政策,帮助用户做出知情决策。
如何解决
- 基于蕴含的LLM框架:提出了一个基于蕴含的LLM框架,通过额外的“蕴含”阶段来过滤LLMs的初始分类,类似于人类选择或丢弃特定的LLM生成的输出。
创新点
- 蕴含驱动的分类:通过引入蕴含验证阶段,增强了基于LLM的分类框架,提高了分类的准确性和可解释性。
- 多阶段处理:包括解释分类器、空白填充器和蕴含验证器,模仿人类推理过程。
算法模型
- 解释分类器:生成类别预测和对应原因。
- 空白填充器:尝试预测被掩盖部分的最佳文本块。
- 蕴含验证器:基于前两个阶段的输出决定是否接受类别预测和原始推理。
实验效果
- 性能提升:与T5、GPT4和LLaMA2等传统LLM方法相比,平均F1分数分别提高了8.6%、14.5%和10.5%。
- 可解释性:57.9%的预测生成的推理文本与法律专家的推理有50%或更多的重叠。
推荐阅读指数:
★★★★☆
推荐理由
这篇论文提出了一种新颖的方法来解析和分类隐私政策,使其更易于用户理解。该方法通过引入蕴含验证阶段,提高了LLMs在隐私政策分类任务中的性能和可解释性,对于希望利用LLMs来改善隐私政策可读性的研究人员和实践者来说非常有价值。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。