【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述（上）-阿里云开发者社区

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

论文信息：

用于医疗领域摘要任务的大型语言模型评估：一篇叙述性综述，文章是由

Emma Croxford , Yanjun Gao 博士 , Nicholas Pellegrino , Karen K. Wong 等人近期合作发表。

1. 摘要

大型语言模型已经推动了临床自然语言生成的发展，为管理大量医疗文本创造了机会。但是，医疗的重大利益性质需要可靠的评估，而这仍然是一个挑战。在这篇叙述性综述中，我们评估了当前针对临床摘要任务的评估状况，并提出了未来方向，以解决专家人工评估的资源限制问题。

2. 引言

大型语言模型（LLM）的快速发展，导致了自然语言生成（NLG）领域的重大进展。在医疗领域，LLM 在减轻医疗保健提供者基于文档的认知负担方面表现出了潜力，特别是在摘要和问答等 NLG 任务中。随着电子健康记录（EHR）中医疗文本数量的不断增长，对临床文档进行摘要已成为一项关键的 NLG 任务 [1]。

最近的进展，例如在 LLM 中引入了更大的上下文窗口（例如，谷歌的 Gemini 1.5 Pro，其容量为 100 万个符元 [2]），允许处理大量的文本数据，从而能够在一个输入中对整个病历进行摘要。但是，将 LLM 应用于医疗等高风险环境中的一个主要挑战是确保其性能的可靠评估。与传统方法不同，生成式人工智能（GenAI）通过生成使用语言动态地完成任务的自然语言叙述，提供了更大的灵活性。然而，这种灵活性在评估生成的输出的准确性、可靠性和质量方面引入了额外的复杂性，其中所需的响应并非静态的。

对 LLM 进行的临床摘要评估必须解决复杂医疗文本的复杂性，并解决 LLM 特定的挑战，例如相关性、幻觉、遗漏以及确保事实准确性 [3]。医疗保健数据会进一步加剧 LLM 特定的挑战，因为它们可能包含冲突或不正确的信息。目前用于摘要任务的指标，例如 n 元组重叠和语义得分，不足以满足医疗领域的细致需求 [4]。虽然这些指标可能在简单的提取式摘要中表现良好，但它们在应用于抽象式摘要 [5] 时却力不从心，因为抽象式摘要需要复杂的推理和深入的医学知识。它们也无法区分不同用户的需求，并提供考虑生成相关性的评估。

在 GenAI 时代，自动化偏差进一步加剧了 LLM 带来的潜在风险，尤其是在临床环境中，错误的后果可能非常严重。因此，高效且自动化的评估方法至关重要。本综述考察了 LLM 在摘要任务中的评估现状，重点介绍了其在医疗领域的应用和局限性。我们还提出了一个未来方向，以克服专家人工评估的劳动密集型过程，该过程耗时、成本高，且需要专门的培训。

3. 电子健康记录文档中的人工评估

目前用于人工编写的临床笔记的人工评估框架主要基于 GenAI 前的评分标准，这些评分标准评估临床文档质量。这些框架根据评估者类型、内容以及生成评估分数所需的分析而有所不同。这种灵活性允许定制评估方法，捕捉确保高质量生成的特定任务方面。专家评估者凭借其领域特定的知识，在维护高标准的评估中发挥着至关重要的作用。

一些常用的 GenAI 前评分标准包括 SaferDx [6]、医师文档质量工具 (PDQI-9) [7] 和修订版 IDEA [8] 评分标准。 SaferDx 评分标准侧重于通过一项针对 12 个问题的回顾性调查，识别 EHR 文档中的诊断错误和分析错失的机会，旨在改善诊断决策和患者安全。 PDQI-9 评估医师笔记质量，涵盖九个标准问题，确保临床文档和患者护理持续改进。 Revised-IDEA 工具通过 4 项评估提供对临床推理文档的反馈。这三个评分标准都强调了在整个鉴别诊断过程中省略相关诊断以及与这些诊断相关的相关客观数据、过程和结论。它们还要求临床文档中不包含错误、不恰当或不完整的信息，强调了临床文档中存在的证据和推理质量的重要性。每个评分标准都包含基于特定临床文档的来源和用途的额外问题——例如 PDQI-9 对组织的评估，以确保读者能够理解患者的临床病程。这三个评分标准也使用不同的评估方式，基于问题的粒度和评估背后的意图。例如，Revised-IDEA 工具对 4 个项目中的 3 个使用计数式评估，以保证包含最少数量的客观数据点，并包含高质量诊断推理文档所需的特征。在最近的出版物中，SaferDx 工具已被用作对 GenAI 在临床实践中使用的回顾性分析 [9]，而 PDQI-9 和 Revised-IDEA 工具已被用于比较临床医生和 GenAI 方法编写的临床文档的质量 [10, 11, 12]。尽管这些评分标准最初并非旨在评估 LLM 生成的内容，但它们为评估在医疗领域生成的文本提供了宝贵的见解。

人工评估仍然是 LLM 输出的黄金标准 [13]。但是，由于这些评分标准最初是为评估临床医生生成的笔记而开发的，因此可能需要针对评估 LLM 生成的输出的特定目的进行调整。为了应对 LLM 生成的内容带来的独特挑战，包括评估生成的文本的一致性和事实准确性（即幻觉），已经出现了一些新的和修改后的评估评分标准。这些调整后的评分标准的共同主题包括安全性 [14]、模态 [15, 16] 和正确性 [17, 18]。

3.1 人工评估标准

一般来说，用于构成 LLM 输出评估评分标准的标准可以分为七个广泛的标准：(1) 幻觉 [4, 17, 18, 19, 20, 21, 22]，(2) 省略 [14, 19]，(3) 修改 [23]，(4) 忠实度/置信度 [15, 16, 23]，(5) 偏见/危害 [14, 16, 22]，(6) 扎根性 [14, 15]，(7) 流畅性 [15, 17, 20, 23]。幻觉包括任何旨在捕捉生成的文本中的信息是否遵循源材料的评估性问题。无依据的声明、无意义的陈述、不可能的场景以及错误或矛盾的事实将在这些标准中的问题中被标记出来。基于遗漏的问题用于识别生成的文本中缺失的信息。如果医疗专业人员会在生成的文本中包含这些项目，则医疗事实、重要信息和关键诊断决策都可被视为在未包含在生成的文本中时被遗漏。当要求评估人员对生成的文本进行修订或估计所需的修订次数时，评估性问题将属于“修订”类别。生成的文本将被修订，直到它们满足研究人员、医院系统或更大的政府机构制定的标准。忠实度/置信度通常以捕捉生成文本是否保留了源文本的内容以及呈现反映源文本中置信度和特异性的结论的问题为特征。关于偏见/伤害的问题评估生成的文本是否正在对患者造成潜在伤害或反映对答复的偏见。不准确、不适用或应用不当的信息将被属于此标准的问题捕获。扎根性是指评估生成文本的源基础证据质量的评估性问题。任何包含阅读理解能力差、知识回忆、推理步骤或与科学共识相悖的证据都将导致扎根性评分较低。除了生成文本的内容外，生成的文本的流畅性也包含在评估中。连贯性、可读性、语法正确性和词汇正确性都属于此标准。在许多情况下，为了专注于基于内容的评估标准，假设流畅性是足够的。

3.2 人工评估分析

评估指标的分析方法也会根据环境和任务而有所不同。评估分数可以使用二元/李克特分类[14, 15]、预先指定的实例的计数/比例[22]、编辑距离[23]或类似于医疗考试中使用的惩罚/奖励方案[24]来计算。二元分类使用真/假或是/否的响应模式来回答评估性问题。这种设置允许将复杂的评估分解为更简单、更可能客观性的决定。二元分类通过将响应推到可接受或不可接受来对较小的错误进行更多处罚。 Likert 量表分类通过提供一个序数量表，允许评分有更高的特异性。这些量表可以包含任意数量的级别，在许多情况下，包括一个中立选项来处理不清楚的响应，它们有 3 到 9 个级别。级别较多的量表会带来更多问题，这些问题会导致分析中满足正态分布的假设，以及审阅者之间复杂性和意见不一致。基于计数/比例的评估要求评估者识别与特定评估标准相关的正确或不正确关键短语的预先指定实例。然后，可以根据评估者的标注计算精确率、召回率、F1 分数或比率，以建立生成的文本的数值分数。编辑距离评估也要求评估者对正在评估的生成文本进行标注。在这些情况下，评估者会对生成的文本进行编辑，直到它令人满意或不再包含严重错误。这些编辑可能是对事实错误的更正、对遗漏内容的补充或对不相关内容的删除。评估分数是根据需要编辑的字符、单词等数量计算的，从原始生成的文本到编辑版本的距离。 Levenshtein 距离 [25] 是用于计算生成的文本与其编辑版本之间的距离的算法示例。该距离计算为将原始文本更改为编辑版本的所需最小替换、插入和删除单个字符的数量。最后，计算评估分数的一种更复杂的方法是使用惩罚/奖励模式。这些模式对评估问题的正面结果进行奖励，对负面结果进行惩罚。此模式类似于国家考试中所见模式，该模式考虑正分和负分，并使用与不同问题相关的权重和难度。例如，用于评估 Med-HALT 数据集上的 LLMs 的模式是正确和错误答案的平均值，分别分配和 -0.25 分 [24]。此评估模式为分配代表假阳性和假阴性之间权衡的权重提供了高度的特殊性。

3.3 人工评估的缺点

虽然人工评估提供了细致入微的评估，但它们资源密集且严重依赖于招募具有临床领域知识的评估人员。评估人员的经验和背景会显著影响他们如何解释和评估生成的文本。此外，评估说明中指导和具体性的程度决定了评估中多大程度上受评估人员对任务的个人解释和信念的影响。虽然增加评估人员的数量可以减轻一些这些偏差，但资源（时间和财务）通常限制了人工评估的规模。这些评估还需要大量的体力劳动，如果没有明确的指导和培训，评判者之间的一致性可能会受到影响。确保人工评估人员符合评估标准的意图需要培训，就像 NLP 共享任务的标注指南一样 [26, 27, 28]。在临床领域，医疗专业人员通常被用作专家评估人员，但他们的时间限制限制了他们参与大规模评估的可用性。招募更多医疗专业人员的难度，加上彻底评估所需的时间，使得频繁、快速评估变得不切实际。

另一个问题是评估标准本身的有效性。一个健全的人工评估框架必须具有强大的心理测量特性，包括结构效度、效标效度、内容效度和评分者之间信度，以确保可重复性和普遍适用性。不幸的是，许多用于临床评估的框架没有提供关于其创建的足够细节，这使得难以评估其有效性 [15, 24]。通常，人工评估框架是针对特定项目开发的，只有一个评估人员，虽然评分者之间信度等指标对于建立有效性至关重要，但它们并不总是被报道 [18, 23]。此外，与临床相关的评估标准尚未专门设计用于评估 LLM 生成的摘要。大多数现有的评估指标侧重于评估人类撰写的笔记质量，它们不包含评估 LLM 生成的输出的独特方面所需的所有元素 [6, 7, 8]。

4. 前 LLM 自动化评估

自动化指标为人类评估的资源限制提供了一个实用的解决方案，尤其是在自然语言处理 (NLP) 等领域，其中问答、翻译和摘要等任务长期以来一直依赖于这些方法。自动化评估采用算法、模型或启发式技术来评估生成文本的质量，无需持续的人工干预，这使得它们在时间和人力方面效率更高。然而，这些指标在很大程度上取决于高质量参考文本的可用性，这些文本通常被称为“黄金标准”。将生成的文本与这些黄金标准参考文本进行比较，以评估其准确性以及它在多大程度上满足了任务的要求。尽管自动化指标效率很高，但它们可能难以捕捉到更复杂领域（如临床诊断）中所需的细微差别和上下文理解，在这些领域，措辞或推理的细微差别会导致重大影响。因此，虽然自动化评估在可扩展性方面很有价值，但它们的有效性与评估中使用的参考文本的质量和相关性密切相关。

4.1 自动化评估类别

临床领域中的自动化评估可以分为五种主要类型（图 1），每种类型都针对特定的评估目标，并取决于为生成文本提供的参考和源材料的可用性：(1) 基于词语/字符的，(2) 基于嵌入的，(3) 学习指标，(4) 基于概率的，(5) 预定义知识库。

基于词语/字符的评估依赖于参考文本和生成文本之间的比较来计算评估分数。这些评估可以基于字符、词语或子序列重叠，具体取决于评估的需要以及文本中可能存在的细微差别。用于摘要评估的回忆导向型学习者 (ROUGE) [29] 是基于词语/字符的指标的典型例子。 ROUGE 的许多变体——N 元共现 (N)、最长公共子序列 (L)、加权最长公共子序列 (W)、跳过二元共现 (S)——代表了参考文本和生成文本之间的比较级别。 ROUGE-L 是目前自动评估的黄金标准，尤其是在摘要中，它依赖于参考文本和生成文本之间的最长公共子序列。评估分数计算为文本中属于最长公共子序列的词语的比例。编辑距离指标 [25] 也属于这一类，因为它们基于需要改变的词语或字符数量，以使参考文本和生成文本匹配。编辑可以被分类为在生成的文本中插入、删除、替换或转置词语/字符。

基于嵌入的评估为参考文本和生成文本创建上下文化或静态嵌入，用于比较，而不是依赖于词语或字符之间的精确匹配。这些基于嵌入的指标能够捕获两个文本之间的语义相似性，因为词语或短语的嵌入将基于其周围的文本以及自身。 BERTScore [30] 是一个常用的指标，属于此类。对于此指标，使用来自 Transformer 的双向编码器表示 (BERT) 模型 [31] 在计算基于这些嵌入的贪婪余弦相似度得分之前生成上下文化嵌入。

图 1：预 LLM 自动评估指标分类根据其基础和对地面实况参考的需求对预 LLM 自动评估指标进行结构化组织。那些为临床领域构建或已应用于临床领域的指标以粗体显示。

基于学习指标的评估依赖于训练模型来计算评估。这些指标可以根据示例评估分数或直接根据参考文本和生成的文本对进行训练。回归模型和神经网络模型是这些指标的基础，为可学习参数提供了不同程度的复杂性。用于翻译评估的跨语言优化指标 (COMET) [51] 是一个属于此类的指标，因为它是一个经过评估训练的神经模型。它最初是为机器翻译评估而创建的，但后来被应用于其他生成任务。 COMET 使用一个神经网络，以生成的文本作为输入来产生评估分数。此指标可以应用于无参考数据集以及具有参考文本的数据集。

概率评估依赖于根据领域知识、参考文本或源材料计算生成的文本的可能性。这些指标将高质量的生成与那些具有高概率与参考文本或源文本一致或相关的生成等同起来。它们还对包含主题外或不相关信息的文本进行惩罚。一个例子是 BARTScore [74]，它根据参考文本计算生成输出的日志概率之和。在这种情况下，日志概率是使用双向和自回归 Transformer (BART) 模型计算的，该模型评估了生成的文本与预期内容的匹配程度 [78]。

预定义知识库指标依赖于已建立的特定领域知识数据库来为生成的文本评估提供信息。这些指标在医疗保健等专业领域特别有价值，因为通用语言模型可能缺乏必要的知识深度。通过结合特定领域的知识库，例如美国国家医学图书馆的统一医疗语言系统 (UMLS) [79]，这些指标提供了更准确、更符合语境的评估。预定义的知识库可以通过将上下文嵌入、机器学习或基于概率的指标与特定领域独有的专业术语和关系相结合，来增强其他评估方法。这种组合确保评估既能考虑语言准确性，又能考虑临床医学等领域所需的专业知识。 BERTScore 有一种在 UMLS 上训练的变体，称为 SapBERTScore [80]。该评分函数与通用领域 BERTScore 相似，但利用使用 UMLS 数据微调的 BERT 模型来生成更特定于领域的嵌入。其他基于 UMLS 的指标包括 CUI F-Score [50] 和 UMLS Scorer [73]。 UMLS Scorer 利用基于 UMLS 的知识图嵌入来评估文本的语义质量 [19]，为评估临床内容提供了一种更结构化的方法。同时，CUI F-Score 使用来自 UMLS 的概念唯一标识符 (CUI) 来表示文本，计算反映生成的文本与关键医学概念匹配程度的 F-score。这使得能够更细致地评估生成的文本中医学术语的相关性和准确性。

4.2 自动化指标的弊端

在大型语言模型出现之前，自动化指标会生成一个单一分数，表示生成的文本的质量，而不管其长度或复杂性。此单一评分方法难以准确定位文本中的特定问题，对于大型语言模型（LLM），几乎无法理解导致特定评分的精确因素[13]。虽然自动化指标具有速度优势，但这是以依赖于表面层面的启发式方法为代价的，例如词汇和结构度量，这些方法无法捕捉医疗文本中更抽象的摘要挑战，例如需要应用临床推理和知识来适当地优先排序和综合医疗信息。

5. 未来方向：大型语言模型（LLM）作为评估器来补充人类专家评估器：提示工程大型语言模型（LLM）作为评委

图 2：提示工程大型语言模型（LLM）作为评委的阶段第 5 节中扩展的提示工程的三个不同方面。这三个部分——零样本和上下文学习 (ICL)、参数高效微调 (PEFT) 以及带有人类感知损失函数 (HALO) 的 PEFT——组合成一个更大的模式，用于训练和提示大型语言模型 (LLM) 作为评估器来补充人类专家评估器。

大型语言模型 (LLM) 是通用的工具，能够执行各种任务，包括评估其他大型语言模型 (LLM) 的输出。这种大型语言模型 (LLM) 作为人类专家评估器模型的概念随着指令调优和人类反馈强化学习 (RLHF) [81] 的出现而得到了发展。这些进步极大地提高了大型语言模型 (LLM) 将其输出与人类偏好对齐的能力，如从 GPT-3 到 GPT-4 的转变，标志着大型语言模型 (LLM) 准确性和性能的范式转变 [82]。

一个有效的大型语言模型 (LLM) 评估器将能够以与人类专家相当的精度和准确性回答评估性问题，遵循人类评估指标中使用的框架。基于大型语言模型 (LLM) 的评估可以提供与传统自动化指标相同的许多优势，例如速度和一致性，同时有可能克服对高质量参考文本的依赖。此外，大型语言模型 (LLM) 可以通过直接与内容互动来评估复杂任务，绕过对简单启发式方法的需要，并提供更多关于事实准确性、幻觉和遗漏的信息。

虽然将大型语言模型 (LLM) 用作评估器在研究中仍处于起步阶段，但早期研究表明了它们作为人类评估的替代方案的实用性，为手动评估的局限性提供了一种可扩展的解决方案 [83]。随着方法的不断发展，基于大型语言模型 (LLM) 的评估有望解决传统自动化指标和人工评估的不足，特别是在临床文本生成等复杂、上下文丰富的领域。

5.1 零样本和上下文学习

设计大型语言模型 (LLM) 以进行评估的一种方法是使用手动策划的提示（图 3）。提示包括提供给大型语言模型 (LLM) 以指导其响应的任务描述和说明。在这种情况下，采用了两种主要的提示策略：零样本和少样本 [3]。在零样本提示中，在要求 LLM 进行评估之前，只会提供任务描述，而没有任何示例。少样本提示提供任务描述以及一些示例，以帮助指导 LLM 生成输出。示例的数量因 LLM 的架构、输入窗口限制以及模型最佳性能点而异。通常，使用 1 到 5 个少样本示例。通过零样本和少样本（“情境学习”）方法（统称为“硬提示”）的提示工程，使 LLM 能够执行未经明确训练的任务。但是，性能可能会因模型的预训练及其与新任务的相关性而有很大差异。

除了这些手动方法之外，一种更具适应性的策略涉及“软提示”，也称为机器学习提示，其中包括提示调整和 p 调整等技术 [84]。软提示是可学习的参数，作为虚拟标记添加到模型的输入中，以发出特定于任务的指令。与硬提示不同，软提示经过训练并纳入模型的输入层，使模型能够处理更广泛的专门任务。事实证明，软提示的表现优于 FewShot 提示，尤其是在大型模型中，因为它可以在不改变核心权重的情况下微调模型的行为。当单靠提示无法达到预期的性能时，可能需要微调整个 LLM 才能实现最佳任务执行。

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述（下）+https://developer.aliyun.com/article/1628948

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述（上）