蚂蚁·安诊儿医疗大模型:6.1B激活即登顶三大医疗榜单,魔搭在线体验已开放

简介: 蚂蚁·安诊儿医疗大模型(AntAngelMed)是由浙江省卫健委与蚂蚁集团联合打造的全球首个开源千亿级医疗大模型。基于Ling-flash-2.0 MoE架构,仅激活6.1B参数即达40B稠密模型性能,推理超200 tokens/s,在HealthBench、MedAIBench等权威测评中全面领先,已开放API与权重下载。

蚂蚁·安诊儿医疗大模型(AntAngelMed)由浙江省卫生健康委联合蚂蚁集团在国家人工智能应用中试基地(医疗)·浙江(简称基地)


共同打造的医疗行业大模型,是全球首个开源的千亿级医疗大模型

该模型基于Ling-flash-2.0的高效MoE架构,100B总参数中仅激活6.1B即达到约40B密集模型的性能水平,推理速度超过200 tokens/s。在国内外主流的权威医疗基准测评中( HealthBench、MedAIBench和MedBench)均位居前列,超越所有开源模型及多个顶尖闭源模型。现已开放API调用和模型权重下载。


开源地址:

  • ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
  • Github: https://github.com/MedAIBase/AntAngelMed
  • 在线体验:https://modelscope.cn/studios/MedAIBase/AntAngelMed


模型基本信息

核心亮点

  • 权威基准测试中全球领先的表现:AntAngelMed 在 OpenAI 发布的 HealthBench 评测中,表现超越所有开源模型及一系列顶尖闭源模型;同时,在中国权威医疗评测基准 MedAIBench 中综合排名第一。
  • 先进的医疗能力:AntAngelMed 通过严谨的三阶段训练流程构建专业医疗能力:基于医学语料的持续预训练、高质量指令的监督微调,以及基于 GRPO 的强化学习。该流程使模型具备深厚的医学知识、复杂的诊断推理能力,并严格遵守安全与伦理规范。
  • 极致高效的推理性能:依托Ling-flash-2.0 的高效 MoE 架构,AntAngelMed 在仅激活 100B 参数中的 6.1B 参数的情况下,即可达到约 40B 密集模型的性能水平。在 H20 硬件上推理速度超过 200 tokens/s,并支持 128K 上下文长度。

技术特性

专业的三阶段训练流程

AntAngelMed 采用精心设计的三阶段训练流程,将通用能力与医学专业知识深度融合:

  • 持续预训练(Continual Pre-Training): 基于 Ling-flash-2.0,AntAngelMed 使用大规模、高质量的医学语料库(百科全书、网络文本、学术出版物)进行持续预训练,注入深厚的领域知识与世界知识。
  • 监督微调(SFT): 此阶段构建了一个多源异构的高质量指令数据集。通用数据(数学、编程、逻辑)强化了 AntAngelMed 的核心思维链能力,而医学场景(医患问答、诊断推理、安全/伦理)则提供了深度适配,以提升临床表现。
  • 强化学习(RL): 采用 GRPO 算法和任务特定的奖励模型,RL 精确塑造模型行为——强调共情能力、结构清晰性与安全边界,并鼓励在复杂病例中基于证据进行推理,以减少幻觉并提高准确性。




图 | 专业的三阶段训练流程

高效 MoE 架构与高速推理

AntAngelMed 继承了 Ling-flash-2.0 的先进设计。在 Ling Scaling Laws 指导下,模型采用 1/32 激活比例的 MoE 架构,并对核心组件进行了全面优化,包括专家粒度、共享专家比例、注意力均衡、无辅助损失 + Sigmoid 路由、MTP 层、QK-Norm 以及 Partial-RoPE。

这些改进使 小激活量 的 MoE 模型相比同等规模的稠密架构,效率最高可提升 7 倍。换言之,AntAngelMed 仅需激活 61 亿参数,即可达到约 400 亿参数稠密模型的性能。由于其激活参数量小,AntAngelMed 具有显著的速度优势:

  • 在 H20 硬件上,推理速度超过 200 tokens/s——约为 360 亿参数稠密模型的 3 倍。
  • 结合 YaRN 外推技术,支持 128K 上下文长度;随着输出长度增加,相对加速比可达 7 倍或更高。


研究团队还专门针对推理加速对 AntAngelMed 进行了优化,采用了 FP8 量化结合 EAGLE3 优化 技术。在并发数为 32 的情况下,该方法相比仅使用 FP8 显著提升了推理吞吐量,在 HumanEval 上提升 71%、GSM8K 上提升 45%、Math-500 上最高提升达 94%,在推理性能与模型稳定性之间实现了稳健平衡。


模型基准测试

HealthBench

HealthBench 是 OpenAI 发布的开源医疗评估基准,旨在通过高度仿真的多轮对话评估大语言模型(LLMs)在真实医疗环境中的表现。AntAngelMed 在该基准上表现卓越,在所有开源模型中排名第一,尤其在更具挑战性的 HealthBench-Hard 子集上优势显著。


图 | AntAngelMed 在 HealthBench 开源模型中排名第一

MedAIBench

MedAIBench 是由国家人工智能医疗产业先导区建设单位开发的权威医疗大模型评测体系。AntAngelMed 同样位居顶尖水平,在医学知识问答和医学伦理/安全性方面展现出强大的综合专业性与安全性。



图 | AntAngelMed 在 MedAIBench 中位居顶尖水平


MedBench

MedBench 是一个科学严谨的中文医疗领域大模型评测基准,包含 36 个独立构建的评测数据集,涵盖约 70 万条样本。AntAngelMed 在 MedBench 排行榜上排名第一,并在五大核心维度——医学知识问答、医学语言理解、医学语言生成、复杂医学推理以及安全性与伦理——全面领先,充分体现了模型的专业性、安全性及临床适用性。


图 | AntAngelMed 在 MedBench 排行榜上排名第一


模型调用

魔搭API inference

魔搭免费体验与API inference调用入口都在模型页右侧,欢迎大家免费体验。



蚂蚁官方API体验

访问地址:https://antangelmed.tbox.cn,注册账号后即可体验模型能力。



通过API调用时,需经过API Key鉴权认证。


鉴权认证后,也可查看接口文档进行详细对接。


模型推理

使用vLLM推理

环境准备:

pip install vllm==0.11.0


推理:

from modelscope import AutoTokenizer
from vllm import LLM, SamplingParams
def main():
    model_path = "MedAIBase/AntAngelMed" # model_id or your_local_model_path
    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
    sampling_params = SamplingParams(
        temperature=0.6,
        top_p=0.95,
        top_k=20,
        max_tokens=16384,
    )
    llm = LLM(
        model=model_path,
        trust_remote_code=True,
        dtype="bfloat16",
        tensor_parallel_size=4, 
    )
    prompt = "What should I do if I have a headache?" 
    messages = [
        {"role": "system", "content": "You are AntAngelMed, a helpful medical assistant."},
        {"role": "user", "content": prompt},
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
    )
    outputs = llm.generate([text], sampling_params)
    print(outputs[0].outputs[0].text)
if __name__ == "__main__":
    main()

使用SGLang推理:

环境准备:

pip install sglang -U


也可使用Docker镜像lmsysorg/sglang:latest部署

SGLang 支持 BF16 和 FP也可使用Docker镜像lmsysorg/sglang:latest部署8 模型,具体取决于 $MODEL_PATH 中模型的数据类型(dtype)。两者使用相同的命令如下:

  • 启动服务器
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
    --model-path $MODLE_PATH \
    --host 0.0.0.0 --port $PORT \
    --trust-remote-code \
    --attention-backend fa3 \
    --tensor-parallel-size 4 \
    --served-model-name AntAngelMed


  • 客户端:
curl -s http://localhost:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What should I do if I have a headache?"}]}'


直达模型体验:https://modelscope.cn/models/MedAIBase/AntAngelMed


目录
相关文章
|
14天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23497 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1050 0
|
8天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1963 4
|
18天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5666 21
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
19天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6777 16
|
7天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
1261 3
对比claude code等编程cli工具与deepseek v4的适配情况
|
7天前
|
人工智能 前端开发 测试技术
Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。

热门文章

最新文章