关于医学多模态大模型,你需要来学习这些最新研究

简介: 关于医学多模态大模型,你需要来学习这些最新研究

医疗数据复杂且众多,想要在其中窥探各种关联往往十分困难。要想将数据「穿针引线」,并且用专业的领域知识武装起来,这更是难上加难。这对于人类医生来说,需要多年的刻苦学习以及丰富的临床经验。那如果把这些数据交给机器,它们又能够有怎样的表现呢?


目前,多模态大模型在自然语言处理、计算机视觉上表现优异,这似乎能给医疗领域带来机遇。但现实是,由于医疗领域的专业性与复杂性,这些通用基础模型的效果并不理想。医疗大模型无法实现检查实体,这意味着它更加依赖于训练数据。但医疗数据具有多样性、稀缺性、隐私性以及复杂性,因此医疗大模型训练面临的挑战也是巨大的。无论是数据、模型,还是训练模式等多个维度都要接受严峻的考验。毕竟,当大模型应用在专业的医疗领域,这会切身影响着患者的治愈甚至是生命。


医疗诊断问题,用传统的标签学习的范式是无法够满足的。只有将涉及医疗的知识点相互关联,形成知识图谱,才能更让机器学习更加高效、精准,有利于帮助人类诊断疾病。


为了让大家更细致地了解医疗领域模型的进展,机器之心线上分享邀请到了上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员张小嫚,以《医学知识增强的多模态基础模型研究》为主题,为大家分享最新研究成果。


在此次线上分享中,大家可以跟随她的讲述,了解近期关于医学知识增强的多模态基础模型的相关研究,并展望基础模型能够从医学知识增强的角度出发,通过结合医学的强先验背景知识,提取适配医疗场景的多模态数据表征,降低数据依赖,开发出更适合医学领域的成果。




分享主题:医学知识增强的多模态基础模型研究


嘉宾简介:张小嫚,上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员,主要研究方向为医学知识增强的多模态基础模型研究。其导师是王延峰教授 ,张娅教授和谢伟迪教授,主要合作者是吴超逸见习研究员 。


个人主页:https://xiaoman-zhang.github.io/

Github: https://github.com/xiaoman-zhang

分享摘要:本次报告中,张小嫚将介绍近期关于医学知识增强的多模态基础模型的相关研究。从数据、模型和下游任务三个角度展开,具体包括:大规模医疗图文数据集与视觉问答数据集的构建(PMC-OA,PMC-VQA);医疗语言基础模型及多模态基础模型(PMC-LLaMA,PMC-CLIP) 的训练;知识增强的胸部 X-ray 疾病诊断基础模型 KAD。


相关链接:


Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images

https://arxiv.org/pdf/2302.14042.pdf

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology

https://arxiv.org/pdf/2301.02228.pdf

K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging

https://arxiv.org/pdf/2302.11557.pdf

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

https://arxiv.org/pdf/2303.07240.pdf

PMC-LLaMA: Further Finetuning LLaMA on Medical Papers

https://arxiv.org/pdf/2304.14454v1.pdf

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

https://arxiv.org/abs/2305.10415

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
背景 & 挑战(Background & Challenge)随着人工智能和医疗行业的蓬勃发展,各种医疗知识库与医疗知识图谱的构建已成为精准医学领域的研究热点。大数据时代,随着医疗系统的信息化发展,医疗领域已经积累了海量的数据。医疗知识图谱所具有的数据集成能力和知识推理能力能够将大量的医疗数据进行有序整合并应用到各类医疗场景中。目前在医疗领域,国外已经构建了一些知识库,比如医学主题
1555 1
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(上)
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(上)
49 2
|
2月前
|
机器学习/深度学习 人工智能 安全
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(下)
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(下)
43 1
|
6月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
31 0
|
7月前
|
机器学习/深度学习 人工智能 数据挖掘
【AI 生成式】半监督学习和自监督学习的概念
【5月更文挑战第4天】【AI 生成式】半监督学习和自监督学习的概念
|
7月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
100 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
7月前
|
测试技术 计算机视觉
斯坦福新研究提升大模型长视频理解能力
【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)
240 1
斯坦福新研究提升大模型长视频理解能力
|
7月前
|
机器学习/深度学习 自然语言处理 算法
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
189 1
|
7月前
|
存储 自然语言处理 文字识别
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
2834 0
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
114 0
下一篇
DataWorks