计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(上)+https://developer.aliyun.com/article/1628850
6. NovAScore: A New Automated Metric for Evaluating Document Level Novelty
Authors: Lin Ai, Ziwei Gong, Harshsaiprasad Deshpande, Alexander Johnson, Emmy
Phung, Ahmad Emami, Julia Hirschberg
NOVASCORE:一种新的自动化指标,用于评估文档级别的新颖性
摘要
随着在线内容的迅速扩展,信息冗余问题日益突出,迫切需要能够识别真正新信息的解决方案。尽管面临这一挑战,研究社区对新颖性检测的关注却有所下降,尤其是随着大型语言模型(LLMs)的兴起。此外,先前的方法在很大程度上依赖于人工注释,这既耗时又昂贵,尤其是当注释者需要将目标文档与大量历史文档进行比较时。在本项工作中,我们介绍了NOVASCORE(原子级新颖性评估分数),这是一种自动化的文档级别新颖性评估指标。NOVASCORE通过聚合原子信息单元的新颖性和显著性评分,提供了高度的可解释性和对文档新颖性的详细分析。借助其动态权重调整方案,NOVASCORE提供了额外的灵活性和维度,以评估文档内信息的新颖性和重要性。我们的实验表明,NOVASCORE与人类对新颖性的判断有很强的相关性,在TAP-DLND 1.0数据集上达到了0.626的点双序相关性,在内部人工注释数据集上达到了0.920的皮尔逊相关性。
创新点
- 提出了NOVASCORE,这是一种自动化的文档级别新颖性评估指标,它通过聚合原子内容单元的新颖性和显著性评分,提供了高度的可解释性。
- 引入了动态权重调整方案,增强了评估文档整体新颖性时的灵活性和维度。
- 开源了NOVASCORE工具,鼓励进一步的研究以扩大其适用性并提高其可扩展性。
算法模型
NOVASCORE框架通过以下步骤实现:
- 原子内容单元(ACU)提取:将目标文档分解为ACU,每个ACU包含传达单一信息所需的最小原子事实数量。
- ACU新颖性评估:通过与历史文档的ACUBank比较,评估每个ACU的新颖性。
- ACU显著性评估:通过将ACU与文档摘要比较,确定每个ACU的显著性。
- ACU分数聚合:通过聚合所有ACU的新颖性和显著性评分来计算文档的整体NOVASCORE。
- 动态权重调整:根据显著性比例动态调整显著性和非显著性ACU的权重,以准确反映它们的重要性。
实验效果
- 在TAP-DLND 1.0数据集上,NOVASCORE与人工新颖性判断的点双序相关性为0.626。
- 在内部人工注释数据集上,NOVASCORE与人工新颖性判断的皮尔逊相关性为0.920。
- 实验结果表明,NOVASCORE在评估文档新颖性方面与人类判断有很强的相关性。
推荐阅读指数:
★★☆☆☆
推荐理由
- 创新性:NOVASCORE提出了一种新颖的自动化方法来评估文档级别的新颖性,这在信息冗余日益严重的今天尤为重要。
- 实用性:通过动态权重调整方案,NOVASCORE能够更准确地反映文档中信息的新颖性和重要性,这对于内容筛选和信息检索等领域具有很高的实用价值。
- 开源工具:NOVASCORE作为开源工具发布,为研究人员和开发者提供了进一步研究和应用的便利。
- 高相关性:实验结果证明了NOVASCORE与人类判断的高相关性,显示了其在实际应用中的潜力。
这篇论文为文档新颖性评估领域提供了一种新的视角和工具,对于希望在信息检索、内容推荐和数据挖掘等领域应用新颖性评估的研究者和实践者来说,具有很高的参考价值。
7. Language Models “Grok” to Copy
Authors: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
语言模型通过“理解”来复制
摘要
本文研究了语言模型在预训练过程中的动态变化,特别关注了它们从上下文中复制文本的能力,这是各种大型语言模型(LLM)应用中的一项基本技能,包括在上下文学习(ICL)和检索增强生成(RAG)中。作者提出了一个新的视角,即基于Transformer的语言模型发展复制能力的方式类似于“理解”(grokking),这指的是在模型过度拟合训练集之后,测试集上的泛化能力突然出现的提高。实验结果提供了三个论点:(1) 预训练损失迅速下降,而模型的上下文复制能力最初滞后然后突然饱和;(2) 发展复制能力的速度与训练的token数量无关,类似于理解速度不受数据集大小影响,只要数据分布保持不变;(3) 负责复制的感应头(induction heads)在训练过程中从浅层到深层形成,类似于在理解过程中深层电路的发展。作者认为,理解与上下文复制之间的联系可以为更有效的语言模型训练提供有价值的见解,最终提高上下文性能。
创新点
- 提出了“理解”(grokking)的概念,将其与语言模型的上下文复制能力发展联系起来。
- 通过实验观察到上下文复制能力的发展与预训练损失的下降不同步,而是在训练后期突然提高,类似于理解现象。
- 发现复制能力的发展与训练token的数量无关,而是与训练的迭代次数有关。
- 观察到感应头在训练过程中从浅层到深层的形成,这与理解过程中深层电路的发展一致。
算法模型
- 使用12层的Llama模型进行训练,模型包含12个注意力头,隐藏状态维度为768,MLP层的中间维度为3,072。
- 模型参数共计162M,使用Llama tokenizer,词汇量为32,000 tokens,模型上下文长度设置为1,024 tokens。
- 采用AdamW优化器进行训练,学习率为0.1,预热步骤为2000,norm clip值为1。
实验效果
- 通过训练过程中的检查点分析,观察到上下文复制准确性在训练损失稳定后突然出现提高,这与理解现象相似。
- 调整批量大小以控制特定更新步骤中训练的token数量,结果表明上下文复制能力的发展与token数量无关,而是在特定更新步骤后形成。
- 通过改变学习率,发现更高的学习率可以加速复制能力的发展,表明优化的强度(由学习率和更新步骤决定)对理解复制有影响。
- 观察到感应头在训练过程中从浅层到深层的形成,与理解过程中深层电路的发展一致。
推荐阅读指数:
★★★☆☆
推荐理由
- 新颖性:文章提出了一个新颖的视角,将语言模型的上下文复制能力与理解现象联系起来,为理解LLM的训练动态提供了新的视角。
- 实验设计:通过细致的实验设计和分析,展示了预训练过程中上下文复制能力的发展与理解现象的相似性,实验结果具有说服力。
- 潜在影响:文章的发现可能对改进语言模型的训练方法、提高模型的上下文性能具有重要的指导意义。
- 理论与实践结合:文章不仅在理论上提出了新的见解,还通过实验验证了这些观点,展示了理论与实践相结合的研究方法。
8. ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
Authors: Yahan Tu, Rui Hu, Jitao Sang
ODE:多模态大型语言模型幻觉的开放集评估
摘要
本文介绍了一种名为ODE(Open-Set Dynamic Evaluation Protocol)的新框架,用于评估多模态大型语言模型(MLLMs)中的对象存在幻觉。现有的评估幻觉的基准测试是静态的,可能导致潜在的数据污染。ODE利用图结构来模拟现实世界概念之间的关联,并为一般和特定领域场景生成新颖的样本。概念的动态组合以及各种组合原则确保了广泛的样本分布。实验结果表明,MLLMs在由ODE生成的样本上表现出更高的幻觉率,有效避免了数据污染。此外,这些样本也可用于微调,以提高MLLMs在现有基准测试中的性能。
创新点
- 提出了ODE,这是一个开放集、动态的评估协议,专门用于评估MLLMs中的对象存在幻觉。
- 采用图结构来模拟现实世界场景,并从中提取概念节点,设计视觉内容和提示,以生成具有广泛分布的大规模数据。
- 提供了四种难度递增的测试集分布标准:常见、长尾、随机和虚构,以实现概念选择的灵活性和定制化。
- 通过实验验证了ODE生成的样本能够揭示MLLMs在更多样化条件下的局限性和能力边界。
算法模型
- ODE框架使用加权图G来模拟现实世界场景,其中节点代表对象概念,边权重W表示实体间关系的强度。
- 基于图结构,ODE设计了四种概念组合标准(常见、长尾、随机、虚构),以动态生成测试图像和相应的文本提示。
- 使用文本到图像的生成模型(如Stable Diffusion 1.5)根据文本提示生成测试图像,并利用开放词汇对象检测模型过滤低质量图像。
- 为生成性和鉴别性任务开发了专门的评估提示模板,以自动化地生成测试数据。
实验效果
- 在多种MLLMs上进行了广泛的实验,结果显示与现有静态基准相比,模型在ODE生成的样本上表现出更高的幻觉率。
- 通过聚类分析揭示了不同概念的幻觉倾向,发现在具有高上下文相似性或视觉模糊性的场景中,幻觉更有可能发生。
- 使用ODE生成的数据进行微调可以显著提高MLLMs在现有基准测试中的性能。
推荐阅读指数:
★★★★☆
推荐理由
- 创新性:ODE提出了一种新颖的开放集动态评估方法,专门针对MLLMs中的幻觉问题,这对于提高模型的可靠性和实际应用价值具有重要意义。
- 实用性:ODE不仅作为一个评估工具,还可以通过生成的样本用于微调,提高MLLMs在特定领域的性能,具有很高的实用价值。
- 广泛影响:随着多模态模型在自动驾驶、医疗等领域的应用,评估和改进这些模型的能力变得尤为重要。ODE提供了一种有效的评估和改进手段。
- 实验验证:通过一系列实验验证了ODE的有效性,实验设计严谨,结果具有说服力。
9. Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation
Authors: Hui Yi Leong, Yi Fan Gao, Ji Shuai, Uktu Pamuksuz
用于自动化医疗文档的大型语言模型的有效微调
摘要
本研究针对医生在电子健康记录(EHRs)和文书工作上花费的额外行政时间,提出了一个名为MediGen的微调大型语言模型(LLM),旨在自动化从医疗对话生成医疗报告的过程。利用开源预训练模型的先进微调方法,包括LLaMA3-8B,MediGen在转录和总结临床互动方面实现了高准确度。微调后的LLaMA3-8B模型在生成准确且临床相关的医疗报告方面表现出色,ROUGE得分为58%,BERTScore-F1为72%,表明其在提高医疗工作流程的效率和医生福祉方面的潜力。
创新点
- 提出了MediGen,一个专门针对自动化医疗报告生成的微调大型语言模型。
- 采用了包括QLoRA和PEFT在内的先进微调技术,以减少模型在医疗环境中的计算资源需求。
- 强调了在保持高准确度的同时,最小化计算资源需求的重要性,为自动化医疗文档的进步奠定了基础。
算法模型
- 使用了LLaMA3-8B作为基础模型,这是一个平衡了性能和资源效率的transformer模型。
- 采用了Quantized Low-Rank Adaptation (QLoRA) 和 Parameter-Efficient Fine-Tuning (PEFT) 技术来减少内存消耗和计算负荷。
- 应用了指令调整方法,明确指导模型将信息组织到SOAP笔记的特定部分。
实验效果
- 在ACI-BENCH数据集上,MediGen的平均ROUGE-1得分为58.22%,ROUGE-Lsum为53.84%,BERTScore-F1为72.1%,优于当前领先的BART+FTSMSum模型。
- 临床审查中,75%的生成笔记被认为无需手动更正即可临床使用,89%的评估者认为MediGen在医院中的实施可以显著减轻医生的行政工作负担。
推荐阅读指数:
★★★★☆
推荐理由
- 实际应用价值:MediGen通过自动化医疗文档的生成,有助于减轻医生的行政负担,提高医疗效率和医生福祉,具有很高的实际应用价值。
- 技术创新:该研究采用了先进的微调技术和模型,如LLaMA3-8B、QLoRA和PEFT,这些技术在医疗领域的应用展示了处理长医疗对话和生成高质量医疗报告的能力。
- 研究方法论:研究方法论严谨,包括数据预处理、模型选择、微调技术以及详尽的评估,为未来在医疗领域的自动化文档生成提供了可靠的研究基础。
- 潜在影响:随着医疗领域对自动化和人工智能的需求日益增长,MediGen的研究和开发可能对医疗行业的工作流程产生深远影响。
这篇论文对于医疗领域的自动化、人工智能应用以及大型语言模型的研究者和实践者来说,提供了有价值的见解和方法,具有很高的参考价值。
10. Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM
Authors: Yuanjie Lyu, Tong Xu, Zihan Niu, Bo Peng, Jing Ke, Enhong Chen
通过两阶段前缀增强的多模态大型语言模型生成面向事件的电影属性
摘要
社交媒体平台的繁荣引发了对语义丰富服务的迫切需求,例如事件和故事情节归属。然而,大多数现有研究集中在通过基本字幕任务理解剪辑级别的事件,而没有分析整部电影中事件的原因。这是一个重大挑战,因为即使是先进的多模态大型语言模型(MLLMs)也难以处理大量多模态信息,这是由于有限的上下文长度。为了解决这个问题,我们提出了一种两阶段前缀增强的MLLM(TSPE)方法,用于电影视频中的事件归属,即连接相关事件及其因果语义。在局部阶段,我们引入了一个交互感知前缀,引导模型关注单个剪辑中的相关多模态信息,简要总结单一事件。相应地,在全局阶段,我们使用推理知识图谱加强相关事件之间的联系,并设计了一个事件感知前缀,指导模型关注相关事件而不是所有之前的剪辑,从而实现准确的事件归属。两个真实世界数据集的全面评估表明,我们的框架优于最先进的方法。
创新点
- 提出了一种新颖的两阶段框架,通过前缀增强的MLLM有效地捕获、总结和丰富多模态线索。
- 在局部阶段,开发了交互感知前缀,确保MLLM专注于与事件相关的多模态线索,同时最小化来自同一剪辑中其他重叠事件的干扰。
- 在全局阶段,引入了事件感知前缀和推理知识图谱,以加强事件间的语义联系,并准确归属事件原因。
算法模型
- 局部阶段:使用交互感知前缀,通过注意力机制将社会互动作为查询,多模态线索作为键和值,将与特定互动相关的信息压缩成嵌入,作为MLLM的前缀。
- 全局阶段:利用推理知识图谱(如ATOMIC)预测给定事件的可能后果,使用事件感知前缀,通过注意力机制将当前事件与之前事件的相关信息压缩成嵌入,作为MLLM的输入。
实验效果
- 在MovieGraph和CHAR数据集上进行了评估,使用BLEU、METEOR和ROUGE-L等自动评估指标。
- TSPE框架在局部阶段和全局阶段均优于多个最先进的方法,显示出在生成准确的事件描述和归属方面的优越性能。
推荐阅读指数:
★★★★☆
推荐理由
- 创新性:该研究提出了一种新颖的两阶段方法,通过前缀增强的MLLM有效地处理视频内容,为视频理解领域提供了新的视角。
- 实际应用价值:研究的成果有助于改善视频内容的语义理解,特别是在电影和电视剧等长视频中的事件归属任务,具有实际应用潜力。
- 研究方法论:研究方法论严谨,通过详细的实验设置和评估指标,验证了模型的有效性,为后续研究提供了可靠的参考。
- 跨学科价值:该研究结合了计算机视觉、自然语言处理和知识图谱等多个领域的技术,展示了跨学科研究的价值。