业内人的“针砭时弊”:AI医疗界的3大乱象以及如何评价医学人工智能的成果?

简介:

雷锋网(公众号:雷锋网)注:本文作者代号HHH,目前为一家人工智能医疗创业公司的CEO,有10多年硅谷的高科技公司的工作经历(Google, Cisco等),斯坦福商学院Sloan Fellow。

业内人的“针砭时弊”:AI医疗界的3大乱象以及如何评价医学人工智能的成果?

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格兰》刊出了一篇观点文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《机器学习和医学预测--远超过高期望的峰值》,文章的批判方法算是很给深度学习这个新工具留面子了。

这里插播一句,我最近接触了一些自称主要关注医疗方向的投资人和创业者,发现有些人居然不知道这个地球上影响因子排名前几的临床医学期刊。《科学》杂志主刊2016年影响因子37.205分,《自然》主刊是40.137,而《新英格兰》是72.406分。当然,有可能这些人也不知道什么叫影响因子。

这篇文章借用了Gartner的技术成熟度曲线Hype Cycle,讲述现在对于医疗界来说深度学习处于过高期望的峰值(Peak of Inflated Expectations)时期,希望我们正确的理解这项技术的能力和局限性,继而进入幻想破灭的底谷期 (Trough of Disillusionment),而不是彻底性的崩溃,然后才有然后:稳步爬升的光明期 (Slope of Enlightenment)和实质生产的高峰期 (Plateau of Productivity)。

业内人的“针砭时弊”:AI医疗界的3大乱象以及如何评价医学人工智能的成果?

文章用严谨和隐晦的语言,指出了现在医学人工智能界做的一些不靠谱、不合医学逻辑和没有临床价值的事情。回观国内市场,这些不靠谱、不合医学逻辑和没有临床价值的事情反而愈演愈烈,耗费了大量的资本和医疗资源,可谓几大乱象。

一、乐此不疲的人机大赛

医学是讲证据的学科,如何证明一项临床成果的先进性,实用性和稳定性,是个学问。

也许是阿尔法狗给大家带了个头儿,觉得用人工智能PK人类只要是平了或者赢了就是证据,于是大江南北人机大赛屡见不鲜:《人工智能PK最强医脑系列大赛》、《首届人机读片竞技大赛召开》、《AI-医师读片竞赛》、《XXX达到/超过人类医生的水平》等等,伴随着这些大赛的,往往是一系列的发布会。一共就十几个甚至几个医生参与,一共就几百张甚至几十张医学影像,最后的百分数结果保留至少四位有效数字,能够证明毛线?且不说是否有为了发布会安排结果的嫌疑,单就医生的水平、状态,数据随机性和广泛性都是论证过程中不堪一击的节点,不能细想不可追问。

二、乐于做不可证伪的预测

医学是讲证据的学科,可是总有一些问题是没有办法证明对错的。

最典型的就是做个体诊断的预测。预测,根据特征人群的患病概率来指导筛查是有价值的,但是对于个体诊断进行的预测是无法证伪也是不科学的。比如,预测特定的个体将有80%的概率患肺癌,和预测30%有本质区别吗?得肺癌可以说明前者更准吗,不得肺癌可以说明后者更准吗,没得肺癌可以证明明年不得吗?深度学习这个工具有一个所谓必杀技:有问必答。别问它怎么得出来的,它声称是有“像人脑一样的一套神经元思考”出来的。作为一个拟合函数,深度学习一定是有输入就有输出的,但是对于输出的结果,如果没有金标准检验,就方便做文章收智商税。《新英格兰》的文章中还提及另一种不可证伪,叫做本身就是一句废话,也就是浅显的道理。比如用人工智能来判断一个高龄且有各种病史的患者有极高的手术风险。临床需求是看哪种诊断或治疗方案更有用,而不是看谁说得废话更多。

三、脱离临床指南,幻想被树上掉下来的苹果砸到

医学是讲证据的学科,可靠的证据形成了临床指南,可靠的证据在推动临床指南的发展。

也许现在计算机的进步让更多的数据可以被利用起来来进行综合判断,但是在这些判断标准进入临床指南之前,都是科研探索的性质。《新英格兰》的观点文章中明确的提到了这种行为,这种没有已经探明的医学逻辑支撑,通过堆砌更多维度的数据妄想有所发现的行为,最终会陷于蝴蝶效应带来的困境之中。我国80年代曾有过大批群众激昂热情去攻克”哥德巴赫猜想“,当时的数学家看待这些群众的努力,也许就像现在医学研究领域的科学家在看大数据工程师们。听说全国有几百家做基因检测服务的公司,他们中的很多给投资人讲得故事就是拼命收集数据,数据堆得多了,深度学习自然就会发现规律。“读书百遍,其义自见”吗?科研工作,还是留给那些受过科学训练的人们吧。

如何具体评价医学人工智能的成果

上述《新英格兰》观点论文的结束语是,是否人工智能和人类医生谁更聪明的争论在持续升温,但是没有意义。如何让人工智能和人类医生来一起实现任何单一方都无法提供的临床效果,才是关键。

一、尊重临床指南

做临床,不是发明创造,是很具体的实际操作,临床指南就是圣经。做人工智能产品就是要在临床指南的范围才有意义,说得庸俗点,才会有商业意义。因为这些产品将优化临床医疗的具体的步骤和环节,无论是降低漏诊,还是帮助医生更快速更准确的作出诊断,都是有价值且有价格的事情。如果非要去证明”哥德巴赫猜想“,很大的目标价值和超小概率的乘积,恐怕也是趋近于零。

在临床指南之内,其实有很多可以实现且值得去做的人工智能项目。以医学图像AI为例,因为医生的肉眼和经验毕竟是有局限性的,所以突破这些局限性,就是临床价值的落点。计算机视觉三大领域: 分类(Classification)、检测(Detection)和分割(Segamentation),不同的临床问题下分别都会有用武之地,同时具体的临床需求也会需要用不同的计算机视觉方法。例如,糖尿病视网膜病变的自动识别:按照国际分级,如果确诊为重度非增生性病变,需要医生能够从大约4000*4000分辨率的眼底照片每个象限中至少能数出20个出血点,还有静脉串珠等其他病灶。这些病灶小到只有几十个像素,那么帮助医生快速的锁定和计数这些微小的目标,检测(Detection)就是最合适的手段,而做分类(Classification)只能够起到核对诊断结果的作用,不能够有效辅助医生做出诊断;而此处做分割(Segamentation)有显得没有太大的必要性。

懂行的读者可能会想起去年Google在美国医学会期刊JAMA(影响因子44.405)上发表的学术成果,对糖尿病视网膜病变的分级就是用的对整张图片的分类Classification,而并非对病灶的检测Detection,没错,结果很好。但是试想一下,当临床指南发生些许变化,比如改为要数出30个出血点时,Google这项成果的所有工作,包括前期十几万张眼底图片的标注,都要完全重来一遍。

二、使用医学的评价体系

使用医学而不是计算机工程的评价体系来衡量人工智能系统是否靠谱。在此需要介绍几个概念:

Sensitivity (敏感度):描述了系统正确的判断阳性的能力,计算方法为,系统正确判断为阳性数量除以所有阳性数量。敏感度越高,说明系统的漏诊率越低。


Specificity(特异度):描述里系统正确的判断阴性的能力,计算方法为,系统正确判断为阴性的数量除以所有阴性数量。特异度越高,说明系统的误报率越低。

我们希望系统能够在漏诊最少的情况下误报也最少,也就是要求高敏感度和高特异度,但是在任何系统,“明察秋毫”和”枉杀千人“总需要找一个平衡点。临床要追求整体的运行效率,牺牲敏感度追求特异度会造成漏诊率提高,致使筛查或检查不达目的;牺牲特异度追求敏感度可能导致医疗资源浪费投入到假阳性的案例中(这是一道GMAT逻辑考题)。

我们再看看计算机工程界常用的评价指标:

Accuracy  (准确率):判断正确的样本数与总样本数之间的比例。计算方法为,系统正确判断为阳性与正确判断为阴性的数量之和除以总样本数量。


Precision  (精确率):系统判断为阳性的情况中正确的比例。计算方法为,系统正确的判断为阳性的数量除以系统判断为阳性的总数量。


Recall (召回率):等同于敏感度。

聪明的你会发现,准确率Accuracy和精确率Precision严重依赖于样本总数里阳性和阴性的配比,举个极端的案例,设计一个系统,对于所有的输入都报阳性,即敏感度为100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。

现实中,做出一个敏感度高特异度不高,或者反之的系统是很容易的,可以轻松的调整测试样本的阳性阴性比例来优化其准确率和精确率值。

不难理解,为什么公关软文中最常出现“准确率超过95%”,“精确率超过98%”,云云。下次再读到“准确率超过95%”的时候,我们可以这么想,准确率95%可能意味着系统蒙答案的时候主要蒙A选项,然后测试样本中的A占绝对多数;那么再读到“精确率超过98%”的时候,我们可以这么想,系统的敏感度可能只有30%,在他能够报出为阳性的时候,绝大部分是对的。

所以,回避了医学常用的评价标准,通过百分数哗众取宠搞新闻效应是比较容易实现的。甚至在一些学术论文和国际医学图像识别的竞赛中,也经常出现只看精确率和召回率,而不出现特异度指标的情况,有些公司还恰恰以这些影响因子0.5分不到的学术论文为荣誉,或者因在这些国际大赛中又将精确度提升了0.12个百分点而骄傲。如果你问我“茴香豆的茴字有几种写法”,我会回答“一万种”。能解决临床需求的AI才是好AI。评价医学人工智能系统是否有用,要同时看其正确的判断阳性的能力和正确的判断阴性的能力,即敏感度和特异度。

三、关注过拟合风险

在《新英格兰》的文章中,“Bias偏见”的词频很高,是指因为数据产生的偏见,也就是我们常说的过拟合。文中提及传统开发中使用到的数据被精确构建以最小化偏见,但是现在的机器学习的开发方法已经不可避免的放大了偏见。所以评价一个人工智能系统,要衡量他有多偏。看测试样本够不够规模、产生于什么时间、什么地区、以至于民族和种族。专业人士可以通过观察训练样本和测试样本本身,来判断人工智能项目的过拟合风险。如果是过拟合严重的系统,再高的敏感度和特异度指标,其临床价值也要打个问号。虽然偏见不可避免,但是我们还是可以简单的衡量一个系统的过拟合风险的大小:测得多总比测得少要好,测试样本与训练样本数量比值越大越好,人口统计学背景越复杂越好等等,道理浅显,不一一赘述。

严谨并乐观着

《新英格兰》这篇观点文章,用词严谨到近乎刻薄,说法隐晦到让人感叹知识分子骂人不带脏字儿,但是最后还是乐观:深度学习也不断的在一些曾经被认为不可能完成的图像识别任务中屡建战功。所以,还是要乐观,推动深度学习的幻想破灭而进入稳步爬升的光明期 (Slope of Enlightenment)。


本文作者:张利

本文转自雷锋网禁止二次转载,原文链接

目录
打赏
0
0
0
0
16429
分享
相关文章
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。
136 32
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
思维跃迁:生成式人工智能(GAI)认证重塑AI时代核心竞争力范式
在数字化时代,AI不仅是工具,更是思维方式的革新。生成式人工智能(GAI)认证不仅帮助职场人士掌握AI技能,更引领从传统思维向AI思维的转型。通过培养数据敏感性、逻辑严谨性和创新能力,GAI认证填补了技能与思维的鸿沟,为企业和个人提供核心竞争力。拥抱AI思维,共创未来,在数字化浪潮中立于不败之地。
思维跃迁:生成式人工智能(GAI)认证重塑AI时代核心竞争力范式
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
173 63
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
68 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
破界·共生:生成式人工智能(GAI)认证重构普通人的AI进化图谱
本文探讨人工智能未来十大趋势及其对普通人的影响,涵盖神经形态计算、多模态认知融合等前沿领域。同时,文章重点介绍生成式人工智能(GAI)认证体系,帮助普通人从认知重构、能力进化到职业转型和伦理自觉全面学习AI技术,成为人机共生时代的智能伙伴。GAI认证作为加速器,提供系统培训与专业交流平台,助力个体在AI浪潮中把握机遇,共创未来。
AI赋能教育评价改革:生成式人工智能(GAI)认证的角色与影响
本文探讨了人工智能(AI)技术在教育评价改革中的作用及生成式人工智能(GAI)认证的影响。随着数字化时代的到来,AI为教育评价提供了新工具与手段,能够优化评价过程、提升质量并促进个性化发展。GAI认证不仅提升了教育工作者的技能与竞争力,还推动了教育评价的标准化与规范化。文章强调需加强AI技术应用研究、推广GAI认证,并注重评价的个性化与差异化,以助力学生全面发展。AI赋能教育评价改革是未来趋势,将为教育事业注入更多智慧与力量。
TsingtaoAI亮相2025青岛西海岸科技成果对接会,以具身智能实训赋能AI人才培养
3月26日青岛——由青岛市科学技术局指导、青岛西海岸新区管委联合上海技术交易所等多家机构主办的“2025青岛西海岸新区科技成果对接会”在青岛金沙滩蓝海御华酒店盛大启幕。青岛市委常委,西海岸新区工委书记、区委书记孙永红,青岛市科学技术局副局长张栋华和上海技术交易所总裁颜明峰等参加会议并致辞。TsingtaoAI受邀参会并发表主题分享,公司负责人汶生以《基于DeepSeek的具身智能实训》为题,向与会嘉宾展示了AI具身智能技术如何突破传统边界,助力AI人才从实验室走向产业一线。
31 1
HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动
HealthGPT 是浙江大学联合阿里巴巴等机构开发的先进医学视觉语言模型,具备医学图像分析、诊断辅助和个性化治疗方案建议等功能。
196 5
HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动
人工智能(AI)时代,七成CEO职位安全受威胁?
随着AI的迅猛发展,74%的CEO担心未来两年内因未能取得AI商业回报而面临职位不保。Dataiku调查显示,94%的CEO认为AI能提供更出色的商业建议,但也忧虑技术生态锁定和定制化难题。AI治理和提升AI素养成为关键,GAI认证助力CEO应对挑战,确保企业在AI时代立于不败之地。

雷锋网

+ 订阅

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等