计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04

1. A Multiple-Fill-in-the-Blank Exam Approach for Enhancing Zero-Resource Hallucination Detection in Large Language Models

Authors: Satoshi Munakata, Taku Fukui and Takao Mohri

https://arxiv.org/abs/2409.17173

一种用于提高大型语言模型零资源幻觉检测的多项填空考试方法

摘要

本文提出了一种新的幻觉检测方法,该方法结合了多项填空考试方法,以解决因故事线变化导致的检测准确性下降的问题。首先,该方法通过从原始文本中遮蔽多个对象来创建一个多项填空考试。然后,提示大型语言模型(LLM)重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致。最后,通过评分考试答案来量化每个原始句子的幻觉程度,同时考虑原始文本本身可能出现的幻觉雪崩效应。实验结果表明,该方法不仅单独优于现有方法,而且在与现有方法集成时也达到了更清晰的最新性能。

研究背景

大型语言模型(LLMs)经常生成与现实世界信息不符或不相关的幻觉文本。随着LLMs在日常生活和工作中被广泛使用,检测LLMs中的幻觉文本变得非常重要。现有的检测方法主要分为三类:检索外部事实、分析LLM的内部状态、仅使用LLM的输入/输出。本文关注第三种类型,即零资源黑盒检测,它不需要外部知识库,也可以应用于仅通过WebAPI使用的LLM和特定领域的微调LLM。

问题与挑战

现有的幻觉检测方法面临的一个主要挑战是,当重新生成的文本故事线发生变化时,原始文本中的句子变得无法比较,尤其是在文本的后半部分。这些不可比较的句子会降低检测的准确性,因为即使它们不是幻觉,也被确定为幻觉。

如何解决

为了解决这个问题,作者提出了一种新的零资源幻觉检测方法,该方法结合了多项填空考试(FIBE)方法。该方法首先创建一个多项填空考试,然后提示LLM重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致,从而防止了不可比较的句子的出现。

创新点

  1. 提出了一种新的零资源幻觉检测方法,结合了多项填空考试方法。
  2. 引入了直接问题(DQ)和幻觉雪崩校正(SBC)方法,以考虑原始文本本身可能发生的幻觉雪崩。
  3. 在与现有方法集成时,实现了更清晰的最新性能。

算法模型

  • 多项填空考试(FIBE):通过从原始文本中遮蔽多个对象来创建填空考试,然后提示LLM重复回答这个考试。
  • 直接问题(DQ):直接询问LLM原始句子是否为幻觉,排除前面句子的影响。
  • 幻觉雪崩校正(SBC):如果原始文本中发生幻觉雪崩,前面的幻觉句子越多,后面的幻觉句子的可能性就越大。

实验效果

实验使用了WikiBio GPT-3幻觉数据集v3进行评估。结果显示,该方法在单独使用时以及与现有方法集成时,都取得了优于现有方法的性能。

重要数据与结论

  • FIBE单独在所有指标上都优于SCGP。
  • 与SCGP集成时,在所有五个指标上都取得了最高的性能。
  • 该方法在处理故事线变化和幻觉雪崩方面具有显著优势。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的方法来提高大型语言模型中幻觉检测的准确性,这对于确保LLMs生成的文本的可靠性和可信度非常重要。

2. MedCodER: A Generative AI Assistant for Medical Coding

KD Baksi, E Soba, JJ Higgins, R Saini, J Wood, J Cook… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2409.15368

MedCodER:一种用于医学编码的生成性人工智能助手

摘要

本研究介绍了MedCodER,这是一个利用提取、检索和重新排序技术的生成性人工智能框架,用于自动化医学编码。MedCodER在国际疾病分类(ICD)代码预测中实现了0.60的微F1分数,显著优于现有技术。此外,作者还提出了一个新的数据集,其中包含带有疾病诊断、ICD代码和支持证据文本的医疗记录。消融测试证实了MedCodER的性能依赖于其各个组成部分的集成。

研究背景

医学编码对于标准化临床数据和通信至关重要,但通常耗时且容易出错。传统的自然语言处理(NLP)方法在自动化编码方面面临挑战,因为标签空间庞大、文本输入长,且缺乏支持证据注释。最近的生成性人工智能(AI)进展为这些挑战提供了有希望的解决方案。

问题与挑战

自动化ICD编码是一个活跃的研究领域,面临包括标签空间巨大、医疗记录数据的多样性和标准化缺乏以及标签分布严重不平衡等挑战。

如何解决

MedCodER通过以下三个核心组件来解决这些挑战:

  1. 提取:从医疗记录中提取疾病诊断、支持证据和初始ICD-10代码列表。
  2. 检索:使用向量数据库检索候选ICD-10代码。
  3. 重新排序:重新排序这些组合代码以产生最终的ICD-10代码预测。

创新点

  • 结合了提取、检索和重新排序技术来提高医学编码的准确性。
  • 利用大型语言模型(LLMs)生成与医疗记录相关的文本,以支持ICD代码的选择。
  • 提出了一个新的数据集,包含疾病诊断、ICD代码和支持证据文本,以促进可解释ICD编码方法的开发和评估。

算法模型

MedCodER框架包括三个主要步骤:

  1. 疾病诊断、支持证据和ICD-10代码提取:使用LLM提取疾病诊断、支持证据文本和相关的ICD-10代码。
  2. ICD-10检索增强:通过语义搜索提取的诊断与有效ICD-10代码的描述之间进行匹配,以检索候选ICD-10代码。
  3. 代码到记录重新排序:使用LLM对检索到的代码和LLM生成的代码进行重新排序,以产生最终预测的ICD-10代码列表。

实验效果

  • 疾病诊断提取:MedCodER在疾病诊断提取方面的表现优于其他系统,F1分数为0.83。
  • ICD-10编码:MedCodER在预测每个诊断的顶级ICD-10代码方面的表现优于现有技术,F1分数为0.60。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一个创新的框架,通过结合最新的生成性AI技术和医学编码的特定需求,显著提高了自动化医学编码的准确性和可解释性。此外,文章还提供了一个新的数据集,这对于该领域的研究者来说是非常宝贵的资源。

3. Exploring Hint Generation Approaches in Open-Domain Question Answering

J Mozafari, A Abdallah, B Piryani, A Jatowt - arXiv preprint arXiv:2409.16096, 2024

https://arxiv.org/pdf/2409.16096

探索开放领域问答中的提示生成方法

摘要

本文介绍了一种新颖的上下文准备方法 HINTQA,该方法使用自动提示生成(HG)技术而不是生成相关上下文或检索相关文档。通过为问题生成多个提示,并将其作为上下文传递给阅读器组件,HINTQA 在三个问答数据集(TriviaQA、Natural Questions 和 Web Questions)上的表现超过了现有的基于检索和生成的方法。

研究背景

自动问答(QA)系统依赖上下文信息提供准确答案。常见的上下文准备方法包括基于检索的方法(从类似 Wikipedia 的语料库中检索文档)和基于生成的方法(使用大型语言模型(LLMs)生成上下文)。然而,这些方法存在局限性,如检索到的文档可能过长且包含不相关信息,而生成的方法通常只产生少数几个句子作为上下文。

问题与挑战

在开放领域问答中,如何有效地准备上下文是一个挑战。现有的方法要么检索大量可能包含无关信息的文档,要么生成的上下文信息不足,导致 QA 系统可能被误导。

如何解决

HINTQA 方法通过提示生成来解决这个问题,它提示 LLM 生成关于潜在答案的提示,而不是生成相关上下文。这些提示通过重新排序和组合,形成用于 Reader 组件识别问题答案的上下文。

创新点

  • 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
  • 通过生成多个提示并将其作为上下文传递给阅读器组件,提高了答案的准确性。
  • 在三个问答数据集上进行了广泛的实验,验证了该方法的有效性。

算法模型

HINTQA 包括以下步骤:

  1. 提示生成:使用 LLM 生成与问题相关的多个提示。
  2. 重新排序:根据收敛分数(HICOS)等标准对提示进行重新排序。
  3. 上下文形成:将排序后的提示组合成上下文。
  4. 答案提取:Reader 组件从上下文中提取答案。

实验效果

  • 在 TriviaQA、NQ 和 WebQ 数据集上,HINTQA 在多个评估指标上的表现均优于现有的基于检索和生成的方法。
  • 实验结果表明,使用提示作为上下文可以提高 QA 系统的性能。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的 QA 系统上下文准备方法,通过自动生成提示来提高问答的准确性和效率。

4. Visual Prompting in Multimodal Large Language Models: A Survey

J Wu, Z Zhang, Y Xia, X Li, Z Xia, A Chang, T Yu, S Kim… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2409.15310

多模态大型语言模型中的视觉提示综述

摘要

本文是关于多模态大型语言模型(MLLMs)中视觉提示方法的首次全面调查,重点关注视觉提示、提示生成、组合推理和提示学习。文章对现有视觉提示进行了分类,并探讨了自动图像注释的生成方法。同时,检验了使视觉编码器与主干LLMs更好对齐的视觉提示方法,涉及MLLMs的视觉定位、对象引用和组合推理能力。此外,还总结了模型训练和上下文学习方法,以提高MLLMs对视觉提示的感知和理解。

研究背景

多模态大型语言模型(MLLMs)通过结合视觉能力,扩展了预训练的大型语言模型(LLMs)的应用范围。虽然文本提示在LLMs中已被广泛研究,但视觉提示作为新范式出现,允许更细粒度和自由形式的视觉指令。

问题与挑战

传统的基于文本的提示方法在提供准确的视觉定位和引用详细视觉信息方面存在不足,可能导致视觉幻觉和语言偏见。现有方法缺乏在预训练阶段对视觉提示的异构训练数据,可能导致MLLMs忽略或误解某些视觉提示。

如何解决

文章提出了HINTQA方法,通过自动提示生成(HG)技术,而不是生成相关上下文或检索相关文档。该方法生成多个提示,以替代检索到的段落和生成的上下文。

创新点

  • 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
  • 生成并发布了用于TriviaQA、NQ和WebQ数据集测试集问题的提示及其相应的收敛分数。
  • 在这些数据集上使用零样本和少样本策略,对各种数量的提示和重新排序方法进行了广泛实验。

算法模型

HINTQA方法包括三个主要步骤:

  1. 提示生成:使用LLM生成与问题相关的多个提示。
  2. 重新排序:根据收敛分数等标准对提示进行重新排序。
  3. 上下文形成:将排序后的提示组合成上下文,传递给阅读器组件以识别问题的答案。

实验效果

  • 在TriviaQA、NQ和WebQ数据集上,HINTQA方法在多个评估指标上的表现均优于现有的基于检索和生成的方法。
  • 实验结果表明,使用提示作为上下文可以提高QA系统的性能。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提供了多模态大型语言模型中视觉提示方法的全面概述,对于希望了解这一领域最新进展的研究人员和实践者来说,值得一读。

5. Empirical Insights on Fine-Tuning Large Language Models for Question-Answering

J Ye, Y Yang, Q Zhang, T Gui, X Huang, P Wang, Z Shi… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2409.15825

对于问答任务微调大型语言模型的实证见解

摘要

本文探讨了如何有效地对大型语言模型(LLMs)进行微调,以便更好地进行问答(QA)任务。研究团队通过一系列实证分析,关注三个关键因素:SFT(监督式微调)阶段所需的数据量、不同SFT数据集对模型性能的影响,以及不同LLMs在数据需求上的差异。实验结果表明,仅需要60个样本就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。

研究背景

大型语言模型(LLMs)如GPT和LLaMA系列,通过在大规模数据集上预训练,编码了广泛的世界知识。这些模型可以通过监督式微调(SFT)应用于QA任务。然而,对于QA任务而言,有效的LLMs微调策略尚未得到充分探索。

问题与挑战

如何确定SFT阶段所需的最小数据量,以及如何选择合适的数据集进行微调,是实现高效QA性能的关键挑战。

如何解决

研究团队提出了一种基于多模板补全机制的方法来评估预训练LLMs记忆不同类型知识的程度,并进行实证分析。

创新点

  • 提出了一种新的多模板补全机制,用于评估预训练LLMs记忆知识的程度。
  • 对来自三个不同模型家族的四个LLMs进行了广泛的实证分析,以回答有关SFT的关键问题。
  • 揭示了不同LLMs在SFT任务中固有的差异,为开发更有效的微调策略提供了新见解。

算法模型

研究团队使用了来自不同模型家族的四个LLMs,包括LLaMA-2、LLaMA-3和Qwen-2系列,并设计了21种不同的映射模板来评估模型记忆知识的程度。

实验效果

  • 实验发现,SFT阶段仅需60个数据点就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。
  • SFT数据的内存级别对LLM性能有显著影响,使用数据的最优数据集根据被微调的特定模型而异。

推荐阅读指数

★★★★☆

推荐理由

这篇文章为如何有效地对大型语言模型进行微调以提高问答任务的性能提供了深入的探索。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
13天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
38 7
|
9天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
12天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
8天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
36 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
28 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
43 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
13天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
31 1
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践