1. A Multiple-Fill-in-the-Blank Exam Approach for Enhancing Zero-Resource Hallucination Detection in Large Language Models
Authors: Satoshi Munakata, Taku Fukui and Takao Mohri
https://arxiv.org/abs/2409.17173
一种用于提高大型语言模型零资源幻觉检测的多项填空考试方法
摘要
本文提出了一种新的幻觉检测方法,该方法结合了多项填空考试方法,以解决因故事线变化导致的检测准确性下降的问题。首先,该方法通过从原始文本中遮蔽多个对象来创建一个多项填空考试。然后,提示大型语言模型(LLM)重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致。最后,通过评分考试答案来量化每个原始句子的幻觉程度,同时考虑原始文本本身可能出现的幻觉雪崩效应。实验结果表明,该方法不仅单独优于现有方法,而且在与现有方法集成时也达到了更清晰的最新性能。
研究背景
大型语言模型(LLMs)经常生成与现实世界信息不符或不相关的幻觉文本。随着LLMs在日常生活和工作中被广泛使用,检测LLMs中的幻觉文本变得非常重要。现有的检测方法主要分为三类:检索外部事实、分析LLM的内部状态、仅使用LLM的输入/输出。本文关注第三种类型,即零资源黑盒检测,它不需要外部知识库,也可以应用于仅通过WebAPI使用的LLM和特定领域的微调LLM。
问题与挑战
现有的幻觉检测方法面临的一个主要挑战是,当重新生成的文本故事线发生变化时,原始文本中的句子变得无法比较,尤其是在文本的后半部分。这些不可比较的句子会降低检测的准确性,因为即使它们不是幻觉,也被确定为幻觉。
如何解决
为了解决这个问题,作者提出了一种新的零资源幻觉检测方法,该方法结合了多项填空考试(FIBE)方法。该方法首先创建一个多项填空考试,然后提示LLM重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致,从而防止了不可比较的句子的出现。
创新点
- 提出了一种新的零资源幻觉检测方法,结合了多项填空考试方法。
- 引入了直接问题(DQ)和幻觉雪崩校正(SBC)方法,以考虑原始文本本身可能发生的幻觉雪崩。
- 在与现有方法集成时,实现了更清晰的最新性能。
算法模型
- 多项填空考试(FIBE):通过从原始文本中遮蔽多个对象来创建填空考试,然后提示LLM重复回答这个考试。
- 直接问题(DQ):直接询问LLM原始句子是否为幻觉,排除前面句子的影响。
- 幻觉雪崩校正(SBC):如果原始文本中发生幻觉雪崩,前面的幻觉句子越多,后面的幻觉句子的可能性就越大。
实验效果
实验使用了WikiBio GPT-3幻觉数据集v3进行评估。结果显示,该方法在单独使用时以及与现有方法集成时,都取得了优于现有方法的性能。
重要数据与结论:
- FIBE单独在所有指标上都优于SCGP。
- 与SCGP集成时,在所有五个指标上都取得了最高的性能。
- 该方法在处理故事线变化和幻觉雪崩方面具有显著优势。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一种创新的方法来提高大型语言模型中幻觉检测的准确性,这对于确保LLMs生成的文本的可靠性和可信度非常重要。
2. MedCodER: A Generative AI Assistant for Medical Coding
KD Baksi, E Soba, JJ Higgins, R Saini, J Wood, J Cook… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15368
MedCodER:一种用于医学编码的生成性人工智能助手
摘要
本研究介绍了MedCodER,这是一个利用提取、检索和重新排序技术的生成性人工智能框架,用于自动化医学编码。MedCodER在国际疾病分类(ICD)代码预测中实现了0.60的微F1分数,显著优于现有技术。此外,作者还提出了一个新的数据集,其中包含带有疾病诊断、ICD代码和支持证据文本的医疗记录。消融测试证实了MedCodER的性能依赖于其各个组成部分的集成。
研究背景
医学编码对于标准化临床数据和通信至关重要,但通常耗时且容易出错。传统的自然语言处理(NLP)方法在自动化编码方面面临挑战,因为标签空间庞大、文本输入长,且缺乏支持证据注释。最近的生成性人工智能(AI)进展为这些挑战提供了有希望的解决方案。
问题与挑战
自动化ICD编码是一个活跃的研究领域,面临包括标签空间巨大、医疗记录数据的多样性和标准化缺乏以及标签分布严重不平衡等挑战。
如何解决
MedCodER通过以下三个核心组件来解决这些挑战:
- 提取:从医疗记录中提取疾病诊断、支持证据和初始ICD-10代码列表。
- 检索:使用向量数据库检索候选ICD-10代码。
- 重新排序:重新排序这些组合代码以产生最终的ICD-10代码预测。
创新点
- 结合了提取、检索和重新排序技术来提高医学编码的准确性。
- 利用大型语言模型(LLMs)生成与医疗记录相关的文本,以支持ICD代码的选择。
- 提出了一个新的数据集,包含疾病诊断、ICD代码和支持证据文本,以促进可解释ICD编码方法的开发和评估。
算法模型
MedCodER框架包括三个主要步骤:
- 疾病诊断、支持证据和ICD-10代码提取:使用LLM提取疾病诊断、支持证据文本和相关的ICD-10代码。
- ICD-10检索增强:通过语义搜索提取的诊断与有效ICD-10代码的描述之间进行匹配,以检索候选ICD-10代码。
- 代码到记录重新排序:使用LLM对检索到的代码和LLM生成的代码进行重新排序,以产生最终预测的ICD-10代码列表。
实验效果
- 疾病诊断提取:MedCodER在疾病诊断提取方面的表现优于其他系统,F1分数为0.83。
- ICD-10编码:MedCodER在预测每个诊断的顶级ICD-10代码方面的表现优于现有技术,F1分数为0.60。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一个创新的框架,通过结合最新的生成性AI技术和医学编码的特定需求,显著提高了自动化医学编码的准确性和可解释性。此外,文章还提供了一个新的数据集,这对于该领域的研究者来说是非常宝贵的资源。
3. Exploring Hint Generation Approaches in Open-Domain Question Answering
J Mozafari, A Abdallah, B Piryani, A Jatowt - arXiv preprint arXiv:2409.16096, 2024
https://arxiv.org/pdf/2409.16096
探索开放领域问答中的提示生成方法
摘要
本文介绍了一种新颖的上下文准备方法 HINTQA,该方法使用自动提示生成(HG)技术而不是生成相关上下文或检索相关文档。通过为问题生成多个提示,并将其作为上下文传递给阅读器组件,HINTQA 在三个问答数据集(TriviaQA、Natural Questions 和 Web Questions)上的表现超过了现有的基于检索和生成的方法。
研究背景
自动问答(QA)系统依赖上下文信息提供准确答案。常见的上下文准备方法包括基于检索的方法(从类似 Wikipedia 的语料库中检索文档)和基于生成的方法(使用大型语言模型(LLMs)生成上下文)。然而,这些方法存在局限性,如检索到的文档可能过长且包含不相关信息,而生成的方法通常只产生少数几个句子作为上下文。
问题与挑战
在开放领域问答中,如何有效地准备上下文是一个挑战。现有的方法要么检索大量可能包含无关信息的文档,要么生成的上下文信息不足,导致 QA 系统可能被误导。
如何解决
HINTQA 方法通过提示生成来解决这个问题,它提示 LLM 生成关于潜在答案的提示,而不是生成相关上下文。这些提示通过重新排序和组合,形成用于 Reader 组件识别问题答案的上下文。
创新点
- 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
- 通过生成多个提示并将其作为上下文传递给阅读器组件,提高了答案的准确性。
- 在三个问答数据集上进行了广泛的实验,验证了该方法的有效性。
算法模型
HINTQA 包括以下步骤:
- 提示生成:使用 LLM 生成与问题相关的多个提示。
- 重新排序:根据收敛分数(HICOS)等标准对提示进行重新排序。
- 上下文形成:将排序后的提示组合成上下文。
- 答案提取:Reader 组件从上下文中提取答案。
实验效果
- 在 TriviaQA、NQ 和 WebQ 数据集上,HINTQA 在多个评估指标上的表现均优于现有的基于检索和生成的方法。
- 实验结果表明,使用提示作为上下文可以提高 QA 系统的性能。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一种创新的 QA 系统上下文准备方法,通过自动生成提示来提高问答的准确性和效率。
4. Visual Prompting in Multimodal Large Language Models: A Survey
J Wu, Z Zhang, Y Xia, X Li, Z Xia, A Chang, T Yu, S Kim… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15310
多模态大型语言模型中的视觉提示综述
摘要
本文是关于多模态大型语言模型(MLLMs)中视觉提示方法的首次全面调查,重点关注视觉提示、提示生成、组合推理和提示学习。文章对现有视觉提示进行了分类,并探讨了自动图像注释的生成方法。同时,检验了使视觉编码器与主干LLMs更好对齐的视觉提示方法,涉及MLLMs的视觉定位、对象引用和组合推理能力。此外,还总结了模型训练和上下文学习方法,以提高MLLMs对视觉提示的感知和理解。
研究背景
多模态大型语言模型(MLLMs)通过结合视觉能力,扩展了预训练的大型语言模型(LLMs)的应用范围。虽然文本提示在LLMs中已被广泛研究,但视觉提示作为新范式出现,允许更细粒度和自由形式的视觉指令。
问题与挑战
传统的基于文本的提示方法在提供准确的视觉定位和引用详细视觉信息方面存在不足,可能导致视觉幻觉和语言偏见。现有方法缺乏在预训练阶段对视觉提示的异构训练数据,可能导致MLLMs忽略或误解某些视觉提示。
如何解决
文章提出了HINTQA方法,通过自动提示生成(HG)技术,而不是生成相关上下文或检索相关文档。该方法生成多个提示,以替代检索到的段落和生成的上下文。
创新点
- 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
- 生成并发布了用于TriviaQA、NQ和WebQ数据集测试集问题的提示及其相应的收敛分数。
- 在这些数据集上使用零样本和少样本策略,对各种数量的提示和重新排序方法进行了广泛实验。
算法模型
HINTQA方法包括三个主要步骤:
- 提示生成:使用LLM生成与问题相关的多个提示。
- 重新排序:根据收敛分数等标准对提示进行重新排序。
- 上下文形成:将排序后的提示组合成上下文,传递给阅读器组件以识别问题的答案。
实验效果
- 在TriviaQA、NQ和WebQ数据集上,HINTQA方法在多个评估指标上的表现均优于现有的基于检索和生成的方法。
- 实验结果表明,使用提示作为上下文可以提高QA系统的性能。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提供了多模态大型语言模型中视觉提示方法的全面概述,对于希望了解这一领域最新进展的研究人员和实践者来说,值得一读。
5. Empirical Insights on Fine-Tuning Large Language Models for Question-Answering
J Ye, Y Yang, Q Zhang, T Gui, X Huang, P Wang, Z Shi… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15825
对于问答任务微调大型语言模型的实证见解
摘要
本文探讨了如何有效地对大型语言模型(LLMs)进行微调,以便更好地进行问答(QA)任务。研究团队通过一系列实证分析,关注三个关键因素:SFT(监督式微调)阶段所需的数据量、不同SFT数据集对模型性能的影响,以及不同LLMs在数据需求上的差异。实验结果表明,仅需要60个样本就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。
研究背景
大型语言模型(LLMs)如GPT和LLaMA系列,通过在大规模数据集上预训练,编码了广泛的世界知识。这些模型可以通过监督式微调(SFT)应用于QA任务。然而,对于QA任务而言,有效的LLMs微调策略尚未得到充分探索。
问题与挑战
如何确定SFT阶段所需的最小数据量,以及如何选择合适的数据集进行微调,是实现高效QA性能的关键挑战。
如何解决
研究团队提出了一种基于多模板补全机制的方法来评估预训练LLMs记忆不同类型知识的程度,并进行实证分析。
创新点
- 提出了一种新的多模板补全机制,用于评估预训练LLMs记忆知识的程度。
- 对来自三个不同模型家族的四个LLMs进行了广泛的实证分析,以回答有关SFT的关键问题。
- 揭示了不同LLMs在SFT任务中固有的差异,为开发更有效的微调策略提供了新见解。
算法模型
研究团队使用了来自不同模型家族的四个LLMs,包括LLaMA-2、LLaMA-3和Qwen-2系列,并设计了21种不同的映射模板来评估模型记忆知识的程度。
实验效果
- 实验发现,SFT阶段仅需60个数据点就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。
- SFT数据的内存级别对LLM性能有显著影响,使用数据的最优数据集根据被微调的特定模型而异。
推荐阅读指数
★★★★☆
推荐理由
这篇文章为如何有效地对大型语言模型进行微调以提高问答任务的性能提供了深入的探索。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。