计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19(上)+https://developer.aliyun.com/article/1628840
摘要:
推测性解码(SD)是一种通过使用较低复杂度的草稿模型提出候选词元,然后由更大的目标模型验证,从而加速大型语言模型(LLMs)推理的技术。为了进一步提高效率,多候选推测性解码(MCSD)通过在每一步采样多个候选词元并并行验证它们,从而增加了接受一个词元的机会并减少了生成时间。现有的MCSD方法依赖于草稿模型来初始化多候选序列,并使用静态长度和树状注意力结构进行草稿生成。然而,这种方法受到草稿和目标模型输出分布差异的影响,特别是在动态生成上下文中。在这项工作中,我们介绍了一种改进的MCSD版本,包括目标模型初始化的多候选过程、动态切片拓扑感知因果掩码用于动态长度调整,以及优化早期停止的决策模型。我们的框架通过最大164%提高了接受率α,并在MCSD基线上最多获得了75%的生成速度提升。我们还进行了消融研究,以评估决策模型的影响。
创新点:
- 引入了目标模型初始化的多候选词元树,以提高接受率。
- 提出了动态切片拓扑感知因果掩码,以便于动态调整草稿生成长度,无需重构拓扑感知因果掩码。
- 引入了决策模型来优化草稿模型生成阶段的早期停止机制,通过预测目标模型接受词元的可能性动态提前终止草稿词元生成,减少不必要的计算。
算法模型:
- 目标模型初始化的多候选词元树:通过从目标模型的分布中采样多个词元来初始化未来的草稿模型生成,以提高接受率。
- 动态切片拓扑感知因果掩码:在初始化期间构建一个大的拓扑感知因果掩码,允许决策模型动态决定多候选草稿词元生成的长度,并避免在每次迭代中生成新的拓扑感知因果掩码。
- 早期停止决策模型:设计了两种类型的决策模型,一种是三层MLP,另一种是受Tandem transformer启发的两层MLP,用于动态决定是否需要提前停止草稿生成过程。
实验效果:
- 在使用TinyLlama1.1B作为草稿模型时,与MCSD基线相比,接受率提高了164%,生成速度提升了75%。
- 在使用LLaMa-68M作为草稿模型时,平均接受率提高了40%,生成时间加快了23%。
- 消融研究表明,目标模型初始化的多候选词元树对加速增益贡献最大,而决策模型在词元树宽度较小时才能加速MCSD。
推荐阅读指数: ★★★★☆
推荐理由:
这篇论文针对大型语言模型的高效推理问题,提出了一种创新的多候选推测性解码方法。通过目标模型初始化、动态掩码技术和早期停止决策模型,显著提高了解码的接受率和生成速度,对于希望在实时应用中部署大型语言模型的研究人员和工程师来说,具有重要的参考价值。此外,论文的实验设计严谨,涵盖了不同模型和数据集,提供了全面的性能评估,对于自然语言处理领域的专业人士来说,是一篇值得阅读的研究。
5. Self-Attention Limits Working Memory Capacity of Transformer-Based Models
Authors: Dongyu Gong and Hantao Zhang
自注意力限制了基于Transformer的模型的工作记忆容量
摘要:
近期对基于Transformer的大型语言模型(LLMs)的研究表明,它们在工作记忆容量方面存在显著的局限性,这与人类行为研究中的发现类似。具体来说,这些模型在N-back任务上的表现随着N的增加而显著下降。然而,目前还缺乏对这种现象为何会出现的机制性解释。受到行为科学中执行注意力理论的启发,我们假设Transformer模型中的自注意力机制可能是导致其工作记忆容量限制的原因。为了验证这一假设,我们训练了标准的仅解码器Transformer来执行N-back任务,并发现随着训练的进行,注意力分数逐渐聚集到N-back位置,这表明模型通过学习关注当前位置与N-back位置之间的关系来掌握任务。至关重要的是,我们发现随着N的增加,注意力分数矩阵的总熵增加,这表明注意力分数的分散可能是在N-back任务中观察到的容量限制的原因。
创新点:
- 提出并验证了自注意力机制可能是导致基于Transformer模型工作记忆容量限制的原因。
- 通过训练不同配置的Transformer模型来执行N-back任务,揭示了模型在处理此类任务时的内在机制。
- 引入了总熵的概念来量化注意力分数分散的程度,并将其与模型在N-back任务上的表现相关联。
算法模型:
- 使用标准的仅解码器Transformer模型,配置了不同数量的解码器层和每个层的注意力头。
- 训练模型执行N-back任务,通过计算输出逻辑和正确答案之间的交叉熵损失进行优化。
- 通过可视化注意力图谱来分析模型在训练过程中如何学习关注特定位置。
实验效果:
- 随着N的增加,模型在N-back任务上的准确性下降,表现出与人类工作记忆容量限制相似的趋势。
- 模型在特定位置的预测准确性与该位置与N-back位置的注意力分数正相关。
- 随着N的增加,注意力分数矩阵的总熵增加,表明注意力分散可能是导致预测准确性下降的原因。
推荐阅读指数: ★★★★☆
推荐理由:
这篇论文深入探讨了Transformer模型在处理N-back任务时的工作记忆机制,提供了对模型内部注意力动态的洞见,并揭示了模型性能下降的可能原因。研究结果不仅对理解Transformer模型的认知能力有重要意义,也为改进模型设计提供了潜在方向。对于自然语言处理和认知科学领域的研究人员来说,这篇论文提供了有价值的见解和研究方法。
6. Semantics Preserving Emoji Recommendation with Large Language Models
Authors: Zhongyi Qiu, Kangyi Qiu, Hanjia Lyu, Wei Xiong, Jiebo Luo
使用大型语言模型进行语义保持的 emoji 推荐
摘要:
表情符号已成为数字通信不可或缺的一部分,通过传达情感、语气和意图来丰富文本。现有的 emoji 推荐方法主要基于它们与用户原始文本中选择的 emoji 匹配的能力进行评估。然而,它们忽略了用户在社交媒体上的行为本质,即每段文本可以对应多个合理的 emoji。为了更好地评估模型与现实世界 emoji 使用的一致性,我们提出了一个新的语义保持评估框架,用于 emoji 推荐。该框架衡量模型推荐与用户文本保持语义一致性的 emoji 的能力。为了评估模型保持语义的能力,我们评估预测的用户情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留,我们认为推荐的 emoji 保持了原始语义。大型语言模型(LLMs)在理解和生成细微差别、上下文相关输出方面的高级能力使它们非常适合处理语义保持的 emoji 推荐复杂性。为此,我们构建了一个全面的基准测试,系统评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明,GPT-4 在其他 LLMs 中表现最佳,达到了 79.23% 的语义保持分数。此外,我们进行了案例研究,分析了模型在下游分类任务中的偏差,并评估了推荐的 emoji 的多样性。
创新点:
- 提出了一个新的语义保持评估框架,用于评估 emoji 推荐模型在保持文本语义一致性方面的能力。
- 开发了一个全面的基准测试,并设计了特定任务的指标,以评估各种 LLMs 在 emoji 推荐上保持语义的性能。
- 提出了几种高级提示技术来提高基线 LLMs 的性能,发现通过条件化用户档案信息,可以显著提高 LLMs 推荐 emoji 的语义一致性。
算法模型:
研究中使用了多种大型语言模型(LLMs),包括专有和开源选项,如 GPT-4、LLaMa、Qwen2、Gemma2 和 Mistral。这些模型通过不同的提示策略进行评估,包括零次提示、少数次提示和条件生成。
实验效果:
- GPT-4 在所有模型中表现最佳,达到了 79.23% 的语义保持分数。
- 在条件生成方法中,所有模型的性能都有所提高,平均提高了约 2%。
- 通过案例研究,发现模型在特定类别的推荐中存在偏差,例如在性别分类任务中,女性类别的准确度普遍高于男性类别。
- 在 emoji 推荐的多样性方面,GPT-4 推荐了最多的独特 emoji,而 LLaMa3.1-8B 展示的多样性最低。
推荐阅读指数:
★★★★☆
推荐理由:
这篇论文针对 emoji 推荐任务提出了一种新颖的评估框架,强调了在推荐系统中保持语义一致性的重要性。研究不仅展示了大型语言模型在这一任务上的潜力,还通过案例研究揭示了现有模型的潜在偏差。这对于自然语言处理和推荐系统领域的研究人员来说,提供了有价值的见解和改进方向。此外,论文提出的评估框架和基准测试为未来相关研究提供了重要的资源。
7. Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering
Authors: Qingru Zhang, Xiaodong Yu, Chandan Singh, Xiaodong Liu, Liyuan Liu, Jianfeng Gao, Tuo Zhao, Dan Roth, Hao Cheng
模型自我指示关注点:忠实度与自动注意力引导相结合
摘要:
大型语言模型(LLMs)在各种实际任务中表现出色,但它们在完全理解并有效利用输入上下文方面常常遇到困难,导致响应不忠实或产生幻觉。当上下文较长或包含分散注意力的信息时,这种困难会增加,可能会使LLMs无法充分捕捉到关键证据。为了解决这个问题,许多工作使用提示(prompting)来帮助LLMs更忠实地利用上下文信息。例如,迭代提示通过两步过程突出关键信息,首先要求LLM识别上下文中重要的部分,然后据此得出答案。然而,提示方法仅限于在标记空间中隐式地突出关键信息,这通常不足以完全引导模型的注意力。为了更可靠地提高模型的忠实度,我们提出了AutoPASTA,一种在推理时自动识别关键上下文信息并通过引导LLM的注意力分数来明确突出显示的方法。与提示类似,AutoPASTA在推理时应用,不需要改变任何模型参数。我们在开放书目问答任务上的实验表明,AutoPASTA有效地使模型把握了关键的上下文信息,从而显著提高了模型的忠实度和性能,例如,LLAMA3-70B-Instruct的平均改进达到了7.95%。
创新点:
- 提出了AutoPASTA方法,它在推理时自动识别关键上下文信息,并通过注意力分数操作明确突出显示这些信息,以提高模型在开放书目问答任务上的忠实度和性能。
- AutoPASTA结合了迭代问题分解提示和注意力引导方法,同时解决了现有方法的局限性,如需要人工标注和对长上下文的处理不足。
- 设计了一种高效的粗到细的搜索方案来识别有效的注意力头,减少了搜索开销。
算法模型:
AutoPASTA是一个推理阶段的方法,它首先通过自由文本生成提示LLM识别上下文中的关键信息,然后将这些信息映射回原始上下文中的相应句子,最后通过注意力引导技术突出显示这些句子。AutoPASTA不需要改变模型参数,也不需要人工标注。
实验效果:
- 在Natural Questions和HotpotQA数据集上,AutoPASTA在单次和多次跳转的开放书目问答任务中均显示出显著的性能提升。
- 例如,对于LLAMA3-70B-Instruct模型,AutoPASTA在两个任务上的平均精确匹配(EM)得分平均提高了7.95%。
- AutoPASTA的注意力头集显示出出色的泛化能力,可以在不同任务之间有效引导。
推荐阅读指数:
★★★★☆
推荐理由:
这篇论文针对大型语言模型在处理复杂问答任务时的忠实度问题提出了创新的解决方案。AutoPASTA方法通过自动突出显示关键信息,有效地提高了模型的响应质量和性能。这项工作不仅在理论和方法上具有创新性,而且在实际应用中具有重要的应用价值,特别是在需要处理大量上下文信息的开放书目问答任务中。
8. ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports
Authors: Vishwanatha M. Rao, Serena Zhang, Julian N. Acosta, Subathra Adithan, Pranav Rajpurkar
ReXErr:在诊断放射学报告中合成临床意义错误
摘要:
准确解释医学影像并撰写放射学报告是医疗保健中的一项关键但具有挑战性的任务。人类撰写的和人工智能生成的报告都可能包含错误,这些错误范围从临床不准确到语言错误。为了解决这个问题,我们介绍了ReXErr,这是一种利用大型语言模型生成胸部X光报告中代表性错误的方法。我们与认证放射科医师合作,开发了错误类别,以捕捉人类和AI生成报告中的常见错误。我们的方法使用一种新颖的采样方案注入多样化的错误,同时保持临床合理性。ReXErr在错误类别之间表现出一致性,并产生与现实世界场景中发现的错误非常相似的错误。这种方法有潜力帮助开发和评估报告校正算法,可能提高放射学报告的质量和可靠性。
创新点:
- ReXErr方法利用大型语言模型生成胸部X光报告中的错误,以模拟人类和AI报告中可能出现的错误。
- 与认证放射科医师合作,开发了一套详细的错误类别,以确保错误的真实性和临床相关性。
- 采用了一种新颖的采样方案,能够在保持临床合理性的同时,注入多样化的错误。
- ReXErr在错误类别之间表现出一致性,并能够产生与现实世界场景中发现的错误非常相似的错误。
算法模型:
ReXErr方法使用大型语言模型(如GPT-4)来生成胸部X光报告中的错误。该方法通过与放射科医师合作,基于现有的放射学报告数据集(如MIMIC-CXR),开发了一套详细的错误类别。ReXErr通过精心设计的采样策略,将错误注入到报告中,这些错误包括内容添加、上下文依赖和语言质量问题。此外,ReXErr还提供了一个句子级别的错误标注流程,通过使用Llama 3.1模型来识别每个句子中的错误类型,并进行标注。
实验效果:
- ReXErr在MIMIC-CXR数据集上进行了测试,能够成功地在报告和句子级别生成错误。
- 在由临床医师审查的100对原始和错误注入报告样本中,83份修改后的报告被认为是合理的AI生成或人类撰写的报告。
- ReXErr在保持错误类别一致性方面表现出色,并且能够在不同数据集(训练集、开发集和测试集)中均匀分布错误类型。
推荐阅读指数: ★★★★☆
推荐理由:
这篇论文提出了一种创新的方法来生成放射学报告中的错误,这对于开发和评估报告校正算法具有重要意义。
9. Adaptive Large Language Models By Layerwise Attention Shortcuts
Authors: Prateek Verma, Mert Pilanci
通过层间注意力捷径自适应的大型语言模型
摘要:
Transformer架构是现代人工智能革命的支柱。然而,它们基于简单地堆叠相同模块的数十层,并按顺序从一个模块处理信息到另一个模块。在本文中,我们提出挑战这一点,为类似大型语言模型(LLM)的设置引入自适应计算,允许最后一层通过注意力机制适应地关注所有中间层,从而引入计算注意力捷径。这些捷径可以使架构深度和上下文自适应。我们在四个不同的数据集上展示了优越的性能,包括声学令牌、自然语言和符号音乐,并且我们通过注意力图证明了模型学习了跨层的复杂依赖关系,这些依赖关系根据输入令牌的复杂性和过去上下文适应地变化。
创新点:
- 提出了一种新的自适应计算方法,允许大型语言模型的最后一层通过注意力机制自适应地关注所有中间层,以改善预训练性能。
- 引入了计算注意力捷径,使得模型可以根据输入令牌的内容自适应地跳过多个层和上下文,学习简单的特征映射以供最终层使用。
- 通过注意力图展示了模型如何根据输入信号的内容自适应地关注不同深度的中间层表示。
算法模型:
- 使用Transformer解码器层构建模型,除了最后一层的注意力机制外,所有模态的架构都相同。
- 在第二、四、八层的每个Transformer层的输出传递给特征学习模块,该模块是一个2层MLP,后跟一个与模型维度大小相同的密集层。
- 最后一层的自注意力模块被替换为交叉注意力层,允许最终Transformer块直接关注不同深度和上下文中的中间层特征。
实验效果:
- 在四个不同的数据集(Text-8、Wiki-103、LibriSpeech和MAESTRO)上进行了实验,证明了所提出方法的有效性。
- 实验结果显示,与基线模型相比,所提出的方法在预训练性能上有所提高,特别是在MAESTRO数据集上取得了最好的加速效果。
- 注意力图表明,模型学习了根据输入令牌的内容自适应地关注不同深度的中间层表示。
推荐阅读指数:
★★☆☆☆
推荐理由:
这篇论文提出了一种创新的方法,通过在大型语言模型中引入层间注意力捷径,使得模型能够根据输入内容自适应地调整计算深度和上下文,从而提高预训练性能。这种方法在多个数据集上显示出了优越的性能,并且通过注意力图提供了模型学习复杂依赖关系的直观证据。
10. CREAM: Comparison-Based Reference-Free ELO-Ranked Automatic Evaluation for Meeting Summarization
Authors: Ziwei Gong, Lin Ai, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Zehui Wu, Ahmad Emami, Julia Hirschberg
CREAM:基于比较的无参考ELO等级自动评估会议摘要
摘要:
大型语言模型(LLMs)在自动评估摘要方面引起了广泛兴趣,提供了一种比人工评估更快、成本效益更高的替代方案。然而,现有的方法在应用于复杂任务(如长文本摘要和基于对话的会议摘要)时常常不尽人意。本文介绍了CREAM(基于比较的无参考ELO等级自动评估会议摘要),这是一个新颖的框架,专门针对评估会议摘要的独特挑战。CREAM利用链式推理和关键事实对齐来评估模型生成摘要的简洁性和完整性,而无需参考文本来实现。通过采用ELO等级系统,我们的方法为比较不同模型或提示配置的质量提供了一种稳健的机制。
创新点:
- 提出了CREAM框架,这是一个专门针对会议摘要评估的新型自动评估框架。
- 引入了基于比较的方法,通过链式推理和关键事实对齐来评估摘要的简洁性和完整性,无需依赖参考文本。
- 使用ELO等级系统对不同模型或提示配置的质量进行比较,提供了一种新的评估方法。
算法模型:
CREAM框架采用了基于比较的方法,通过链式推理(Chain-of-Thought, CoT)和关键事实对齐来评估摘要。该框架不依赖于参考文本,而是通过比较模型生成的摘要与关键事实的对齐程度来评估摘要的质量。此外,CREAM还采用了ELO等级系统,通过比较不同模型生成的摘要来确定最佳模型。
实验效果:
- 在多个数据集上的实验结果表明,CREAM框架能够有效地评估会议摘要的质量,并且在与人类评估的一致性方面优于现有的LLM-based评估方法。
- 实验中,GPT-4o在完整性方面表现最佳,GPT-4在简洁性方面表现最佳,但所有模型都在完整性和简洁性之间寻找平衡方面存在挑战。
- CREAM框架在评估会议摘要时,与基于参考文本的传统方法相比,显示出更高的排名相关性(从0.5提高到1.0)。
推荐阅读指数:
★★★★☆
推荐理由:
这篇论文针对会议摘要这一特定领域的自动评估问题提出了创新的解决方案。CREAM框架通过结合链式推理和ELO等级系统,提供了一种无需参考文本的评估方法,这对于长文本和复杂对话摘要的评估尤其有价值。论文的实验结果证明了该方法的有效性,并且对于推动自动摘要评估技术的发展具有重要意义. 总体而言,这篇论文是一个特定应用领域的算法应用创新。