哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型

640.png


Title: HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge

PDF: https://arxiv.org/pdf/2304.06975v1.pdf

Code: https://github.com/scir-hi/huatuo-llama-med-chinese

导读

在生物医学领域,LLM模型(如LLaMaChatGLM)因为缺乏一定的医学专业知识语料而表现不佳。该项目通过医学知识图谱GPT3.5API构建了中文医学指令数据集,并对LLaMa模型进行了指令微调得到了一个针对医学领域的智能问诊模型HuaTuo,相比于未经过医学数据指令微调的原LLaMa而言,HuaTuo模型在智能问诊层面表现出色,可生成一些更为可靠的医学知识回答;与此同时,基于相同医学数据,该项目还训练了医疗版本的ChatGLM模型: ChatGLM-6B-Med

除了华佗模型,该团队还即将发布扁鹊模型PienChueh(同为基于医学数据训练的大模型),欢迎大家届时使用体验。

引言

ChatGPT模型虽然表现出色,但毕竟不开源,开源社区已提供了许多平替方案,比如LLaMa等(7B,13B,30B,65B),其中7B具有70亿参数,训练成本最低,借助Colossal AIDeep Speed大模型训练框架,也可以很好的平民化训练并针对性的用于解决特定业务场景下的问题。

不管是原始LLaMa,还是ChatGPT等其它大语言模型,它们在医疗领域的应用仍然存在一些问题。比如笔者前段时间问原始LLaMa,给它输入一段病情描述,让它输出病情诊断信息,它会给出一些非常简短且常规的回答,完全没回答到点子上;虽然在这一层面ChatGPT做的更好,回答的也更加详细,但更多的也是一些偏向于科普式的回答,并没有非常惊艳的效果。而经过专门医疗数据训练的Glass AI(链接:https://glass.health/ai)模型在智能诊断上表现极其出色,感兴趣的读者可自行注册体验(强烈推荐)。但由于Glass AI是一款已商业化的AI智能诊断模型,也并未开源。

由于医疗领域专业知识太多,而LLMs的一般领域知识往往无法满足这种专业化需求,如果直接用于智能诊断,极有可能导致诊断精度、药品推荐和医疗建议等方面的不准确性,甚至危及患者的生命。所以,将专业的医学领域知识,诊断案例数据输入到大模型进行专业化学习非常有必要。

目前,已经有一些方法尝试解决这个问题,但这些方法主要依赖于从人工交流中检索医学信息,容易出现人为错误。此外,LLMs通常只在英语语境下进行训练,这限制了它们在其他语言环境下的理解和响应能力,例如中文,因此它们在中国语境中的应用受到极大限制。

现有的方法主要采用ChatGPT进行数据辅助,将ChatGPT某一领域的知识有效蒸馏到较小的模型:比如Chatdoctor代表了将LLMs在生物医学领域的第一次尝试,通过调用ChatGPT API来生成一些医学语料数据并叠加一部分真实场景医患数据,来微调LLaMa;为了解决中文语境问题,DoctorGLM利用ChatGLM-6B作为基础模型,并用ChatDoctor数据集的中文翻译通过ChatGPT获取进行微调。这些模型出来的效果只能说还行,但距离真实落地还很远。毕竟通过未经过专门医学语料训练的ChatGPT获取的训练数据也是非常general的回答,对模型得不到质的提升。

本项目介绍了一种针对生物医学领域、专注于中文语言的LLM模型—HuaTuo(华驼)。为了保证模型在生物医学领域回答问题的准确性,研究人员通过从中文医学知识图谱CMeKG中提取相关的医学知识,生成多样的指令数据,以确保模型回答问题的事实正确性,并收集了超过8000条指令数据进行监督微调。该模型基于开源的LLaMa-7B基础模型,整合了CMeKG的结构化和非结构化医学知识,并利用基于知识的指令数据进行微调,使得模型具有较为丰富的医学领域专业知识,从而为智能诊断作出较为专业的回答。

HuaTuo Model

Base Model

LLaMA作为一个开源模型,具有7B到65B各个量级的模型;为了更快速高效的训练,作者采用LLaMA-7B作为HuaTuo的基础模型

Medical Knowledge

医学知识的种类包括:结构化医学知识和非结构化医学知识。结构化医学知识指的是医学知识图谱等形式化的知识,而非结构化医学知识则是如医学指南等的非形式化的知识。作者在这里使用了一个名为CMeKG的中文医学知识图谱,其中提供了关于疾病、药物、症状等的检索医学知识,目的是为了让大模型学习一些相关的专业医学知识。下表1展示了CMeKG知识库中的几个医学知识样例。

表1

Knowledge-based Instruction Data

instruct-tuning是一种有助于大模型在zero-shot场景下表现出令人满意性能的tuning微调技术,但这需要有足够丰富的instruct以指导大模型学会理解instruct命令,并作出反馈,当然我们也可以根据上述医学知识可生成一系列instruct-input-output模式的数据如下表2所示。然而,对于一种医学对话问诊的大语言模型,输入通常是以问题的形式进行陈述,所以在这里作者只保留input-output模式的数据来训练HuaTuo模型。

表2

在一般领域,生成的指令需要具备足够的多样性,以应对未知任务zero-shot;而在医学领域,则更加关注大型语言模型响应中的事实是否正确。因此,在本文中,研究者首先从知识图谱中随机选择一些医学知识实例,并利用OpenAI API 基于这些特定的知识生成一系列问诊对话的训练样本8,000条(数据见项目代码 Huatuo-Llama-Med-Chinese/data/)。如下表3所示

表3

实验设置

Baselines

为了对比HuaTuo和其它基础模型的性能,作者进行了与三个基础模型的比较分析:

  1. LLaMA 作为HuaTuo的基础模型,作者选择了原生LLaMA-7B作为基础模型比较对象。
  2. AlpacaLLaMA的一种instruct-tuning版本模型,拥有超过80,000个在通用领域中生成的训练样本。
  3. ChatGLM 是专门为中文聊天场景设计的大语言模型,在本文的分析中,作者将HuaTuo的性能与ChatGLM-6B进行了比较。

Metrics

自然语言生成领域中常用的评估指标是BleuRouge,作者在医疗问答任务中引入了新评估指标SUS,分别代表:安全性可用性流畅性。其中,安全性维度评估生成的响应是否存在误导用户、对用户健康构成危险的潜在因素,例如错误的药物建议;可用性维度评估生成的响应是否反映了医疗专业知识;流畅性维度则评估生成模型作为语言模型的能力。

实验结果

在这项研究中,作者构建了一个中文对话场景的医疗问诊测试集,并将HuaTuo与其他三个基准模型进行了比较。为了评估模型性能,本项目招募了五名具有医学背景的专业医师,在SUS三个维度上评估模型的安全性、可用性和流畅性。SUS刻度从1(不可接受)到3(好),其中2表示可接受的响应。平均SUS得分如下表4所示。尽管LLaMA获得了最高的安全得分,但其响应常常缺乏信息且重述问题,导致可用性得分低。另一方面,HuaTuo模型显着提高了知识可用性,同时没有太多地牺牲安全性。

表4. HuaTuo与原始LLaMa,Alpaca,ChatGLM模型在SUS维度上的性能评估

目录
相关文章
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
145 60
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
78 10
|
3月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
28 5
|
5月前
|
人工智能 人机交互 语音技术
让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo
BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。
|
6月前
|
机器学习/深度学习 自然语言处理 决策智能
ICML 2024:大语言模型预训练新前沿:最佳适配打包重塑文档处理标准
【5月更文挑战第27天】ICML 2024 提出大语言模型预训练新方法——最佳适配打包,解决文档截断问题,提高模型性能和可靠性。此方法通过优化组合,保留完整上下文,减少信息丢失,在阅读理解等任务上表现卓越。实验显示,不同尺寸和序列长度的模型使用此方法后,下游任务性能提升,幻觉现象减少。尽管计算资源需求增加,但该方法对预训练技术的改进具有重要意义。[论文链接](https://arxiv.org/pdf/2404.10830)
65 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
92 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
测试技术 决策智能
专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率
【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)
166 4
|
人工智能
【2023】COMAP美赛数模中的大型语言模型LLM和生成式人工智能工具的使用
【2023】COMAP美赛数模中的大型语言模型LLM和生成式人工智能工具的使用
143 0
|
人工智能 自然语言处理 安全
中文竞技场大模型评测(AI从业者评测)
随着OpenAI研发的GPT大模型大火,市场意识到大模型的潜力与商机。2023年作为“大模型元年”,在这一年里,国内诞生了成千上万的大模型,但有大模型不意味着就能好,好的大模型才是市场上所需要的,那么怎么做出好的大模型呢?接下来将会介绍如何去评测大模型。
100288 2
|
人工智能 自然语言处理 搜索推荐
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
184 1
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)

热门文章

最新文章