医疗数据复杂且众多,想要在其中窥探各种关联往往十分困难。要想将数据「穿针引线」,并且用专业的领域知识武装起来,这更是难上加难。这对于人类医生来说,需要多年的刻苦学习以及丰富的临床经验。那如果把这些数据交给机器,它们又能够有怎样的表现呢?
目前,多模态大模型在自然语言处理、计算机视觉上表现优异,这似乎能给医疗领域带来机遇。但现实是,由于医疗领域的专业性与复杂性,这些通用基础模型的效果并不理想。医疗大模型无法实现检查实体,这意味着它更加依赖于训练数据。但医疗数据具有多样性、稀缺性、隐私性以及复杂性,因此医疗大模型训练面临的挑战也是巨大的。无论是数据、模型,还是训练模式等多个维度都要接受严峻的考验。毕竟,当大模型应用在专业的医疗领域,这会切身影响着患者的治愈甚至是生命。
医疗诊断问题,用传统的标签学习的范式是无法够满足的。只有将涉及医疗的知识点相互关联,形成知识图谱,才能更让机器学习更加高效、精准,有利于帮助人类诊断疾病。
为了让大家更细致地了解医疗领域模型的进展,机器之心线上分享邀请到了上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员张小嫚,以《医学知识增强的多模态基础模型研究》为主题,为大家分享最新研究成果。
在此次线上分享中,大家可以跟随她的讲述,了解近期关于医学知识增强的多模态基础模型的相关研究,并展望基础模型能够从医学知识增强的角度出发,通过结合医学的强先验背景知识,提取适配医疗场景的多模态数据表征,降低数据依赖,开发出更适合医学领域的成果。
分享主题:医学知识增强的多模态基础模型研究
嘉宾简介:张小嫚,上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员,主要研究方向为医学知识增强的多模态基础模型研究。其导师是王延峰教授 ,张娅教授和谢伟迪教授,主要合作者是吴超逸见习研究员 。
个人主页:https://xiaoman-zhang.github.io/
Github: https://github.com/xiaoman-zhang
分享摘要:本次报告中,张小嫚将介绍近期关于医学知识增强的多模态基础模型的相关研究。从数据、模型和下游任务三个角度展开,具体包括:大规模医疗图文数据集与视觉问答数据集的构建(PMC-OA,PMC-VQA);医疗语言基础模型及多模态基础模型(PMC-LLaMA,PMC-CLIP) 的训练;知识增强的胸部 X-ray 疾病诊断基础模型 KAD。
相关链接:
Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images
https://arxiv.org/pdf/2302.14042.pdf
MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology
https://arxiv.org/pdf/2301.02228.pdf
K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging
https://arxiv.org/pdf/2302.11557.pdf
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
https://arxiv.org/pdf/2303.07240.pdf
PMC-LLaMA: Further Finetuning LLaMA on Medical Papers
https://arxiv.org/pdf/2304.14454v1.pdf
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering