CVPR oral解读:医疗AI最新进展,可媲美人类医师推理能力的图像检测算法

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 疫情让大众更加关注医疗健康。而在刚刚过去的CVPR2020中,也有很多医学方面的研究工作。深睿医疗就有四篇论文入选,其中三篇为oral,其论文涵盖了医疗图像识别,姿态估计等多个主题,在医疗AI方面取得了优异的成绩。

微信图片_20220109113924.jpg


CVPR竞争一年比一年更激烈。


从公布的论文接收结果来看,在5865篇有效投稿中有1467篇论文被接收,接收率仅为25%,oral按照往年经验,一般只有5-7%,竞争越发激烈。 


由于疫情,医疗行业的计算机视觉今年也备受关注,无论是oral,poster,还是tutorial,workshop,都有不少医疗健康领域的科研成果。 


其中,深睿医疗就有四篇科技论文入选,三篇选为oral,确实获得了一个相当不错的成绩。 


基于二部图的图像检测算法,拥有了媲美人类医师的推理能力


乳腺癌已成为当前社会的重大公共卫生问题之一,因此乳房X光照片质量检测具有重要的临床意义。


来自轴斜位视图(即中外侧斜肌和颅尾骨)的信息和乳腺疾病是高度相关的,有助于医生做出全面的决策。 


放射科医师能够在横断面图像识别出肿块,但是大多数现有的图像识别方法缺乏领域知识的指导,推理能力很差,因此会限制其性能。 


下面这篇论文介绍了一种先进的二部图卷积网络,使算法具备了类似放射线医师的轴斜位视图推理能力。    


 微信图片_20220109113926.png


我们来看一下二部图网络是如何实现推理能力增强的。  


 微信图片_20220109113929.png      


二部图将跨视图主干特征作为输入,并输出增强的特征以进行进一步的预测。首先,通过用伪标记映射空间视觉特征来构造二部图节点。每个映射单元是每个图形节点的代表区域。


然后,二分图边缘学习对几何约束和语义相似性进行建模。


接下来,通过在二部图中传播信息来进行对应推理以增强特征。最后,增强的特征将与原始信息聚合在一起,进行进一步的预测。 在DDSM数据集上的实验结果表明,该算法达到了最先进的性能。


此外,视觉分析表明该模型具有明确的物理意义,有助于放射科医生进行临床解释。 


同现有的方法相比,同等假阳性下检出敏感性高出4个百分点,同等敏感性下假阳性减少了近60%,充分验证了算法的有效性。


这篇文章也被选为2020年CVPR的ORAL,该算法也已经应用到深睿医疗的乳腺钼靶AI医学辅助诊断系统,用于乳腺疾病的早期筛查。 

病例文本数据及影像数据的关联挖掘全搞定:基于自然语言处理的图像识别


图像识别依旧是今年CVPR的大热方向,接受论文比例是各个主题中最高的。


《Graph-Structured Referring Expression Reasoning in The Wild》(图形结构的引用表达式推理)是由深睿研究员和香港大学计算机科学系联合发表的,主要讨论了一种基于自然语言处理的图像识别方法      


微信图片_20220109113930.png      


这种方法利用自然语言描述来定位图像上的目标物体。作者提出了场景图引导的模块网络(SGMN),该网络在表达式的语言结构的指导下,通过神经模块网络对图像语义图和语言场景图进行推理。 


此外,作者还提出了Ref-Reasoning——用于结构化指称表达式推理的大规模真实数据集。该数据集包含真实图像和具有不同推理布局的语义丰富的表达式。 


参考集包含83,989张图像中的791,956个参考表达。它具有721,164、36,183和34,609个表达参考对,分别用于训练,验证和测试。


RefReasoning包含许多语义丰富的表达式,这些表达式描述了不同的对象,属性,直接关系和间接关系。 


实验结果表明,SGMN在新的Ref-Reasoning数据集上明显优于现有的最新算法,并在常用的基准数据集上超过了最新的结构化方法。 这项技术在医疗场景下发挥了巨大的作用,可以用于病例文本数据及影像数据的关联挖掘。 


Deep Snake:实时实例分割算法识别物体轮廓


深睿研究院的另一篇论文:《Deep Snake for Real-Time Instance Segmentation》(Deep Snake实时实例分割算法)是与浙江大学计算机学院合作发表的。


Deep Snake用深度学习的方式实现了传统的主动轮廓模型思想,使用神经网络将初始轮廓迭代变形为物体轮廓。   


    微信图片_20220109113932.png      


实例分割是许多计算机视觉项目的基石,许多视频分析,自动驾驶和机器人抓取项目都是基于实例分割。一般的实例分割都是基于像素,本文中的实例分割则是基于轮廓,相较于像素而言参数较少。


Deep Snake的本质就是轮廓模型。为了充分利用轮廓拓扑,论文提出了圆形卷积以有效地学习轮廓模型。 


基于Deep Snake,论文开发了一个两阶段的实例分割:初始轮廓方案和轮廓变形。在数据集的测试中,与直接回归对象边界点的坐标相比,这种方法性能更好。


论文将这个方法放到Cityscapes,Kins,Sbd和COCO数据集上进行测试,取得了很好的效果,并达到了32fps的速度。 


MetaFuse:不依赖特定相机对的人体姿态估计


人体姿态估计已经取得了非常大的进展,但是之前的研究在实际中会遇到一个问题,就是人体被遮挡,之前的很多方案依赖于特定的相机对,缺乏泛化能力。


深睿研究院与北京大学前沿交叉学科研究院大数据中心合作提出了融合多个视角信息的姿态估计方法。  


  微信图片_20220109113934.png


MetaFuse将原有的融合模型分解为:所有相机通用的模型、针对特定相机的轻量级变换矩阵。然后使用元学习增强了模型的泛化能力,只需要少量样本即可完成模型迁移。    


 微信图片_20220109113936.png


通过不同方法估计的人体姿态。每组有4个子图,分别对应于真实情况和三种方法。粉色和青色的关节分别属于右侧和左侧的身体部位。红色箭头突出显示了这三种方法估计的关节位置。从实验结果来看,MetaFuse的各项性能指标明显优于其他方法。 今年的CVPR还有很多值得关注的内容,感兴趣的同学可以去官网查看相关的细节。


参考链接:https://arxiv.org/pdf/2003.13239.pdf
http://cvpr2020.thecvf.com/

相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
智创 AI 新视界 -- 提升 AI 推理速度的高级方法(16 - 2)
本文深度聚焦提升 AI 推理速度,全面阐述模型压缩(低秩分解、参数量化)、硬件加速(GPU、TPU)及推理算法优化(剪枝感知推理、动态批处理)。结合图像识别等多领域案例与丰富代码示例,以生动形象且专业严谨的方式,为 AI 从业者提供极具价值的技术指南,助力突破 AI 推理速度瓶颈,实现系统性能跃升。
|
3月前
|
人工智能 自然语言处理 运维
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。
355 1
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
|
3月前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
3月前
|
人工智能 JSON 小程序
【一步步开发AI运动APP】七、自定义姿态动作识别检测——之规则配置检测
本文介绍了如何通过【一步步开发AI运动APP】系列博文,利用自定义姿态识别检测技术开发高性能的AI运动应用。核心内容包括:1) 自定义姿态识别检测,满足人像入镜、动作开始/停止等需求;2) Pose-Calc引擎详解,支持角度匹配、逻辑运算等多种人体分析规则;3) 姿态检测规则编写与执行方法;4) 完整示例展示左右手平举姿态检测。通过这些技术,开发者可轻松实现定制化运动分析功能。
|
3月前
|
存储 人工智能 安全
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
幼儿跌倒检测系统基于AI视频技术,融合人体姿态识别与实时报警功能,为幼儿园安全管理提供智能化解决方案。系统通过YOLOv9、OpenPose等算法实现高精度跌倒检测(准确率达98%),结合LSTM时间序列分析减少误报,支持目标分类区分幼儿与成人,并具备事件存储、实时通知及开源部署优势。其高效、灵活、隐私合规的特点显著提升安全管理效率,助力优化园所运营。
131 0
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
|
3月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
428 3
|
3月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
361 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
2月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
510 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南

热门文章

最新文章