蚂蚁·安诊儿医疗大模型：6.1B激活即登顶三大医疗榜单，魔搭在线体验已开放-阿里云开发者社区

蚂蚁·安诊儿医疗大模型：6.1B激活即登顶三大医疗榜单，魔搭在线体验已开放

2026-05-13 43

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 蚂蚁·安诊儿医疗大模型（AntAngelMed）是由浙江省卫健委与蚂蚁集团联合打造的全球首个开源千亿级医疗大模型。基于Ling-flash-2.0 MoE架构，仅激活6.1B参数即达40B稠密模型性能，推理超200 tokens/s，在HealthBench、MedAIBench等权威测评中全面领先，已开放API与权重下载。

蚂蚁·安诊儿医疗大模型（AntAngelMed）由浙江省卫生健康委联合蚂蚁集团在国家人工智能应用中试基地（医疗）·浙江（简称基地）

共同打造的医疗行业大模型，是全球首个开源的千亿级医疗大模型。

该模型基于Ling-flash-2.0的高效MoE架构，100B总参数中仅激活6.1B即达到约40B密集模型的性能水平，推理速度超过200 tokens/s。在国内外主流的权威医疗基准测评中（ HealthBench、MedAIBench和MedBench）均位居前列，超越所有开源模型及多个顶尖闭源模型。现已开放API调用和模型权重下载。

开源地址：

ModelScope：https://modelscope.cn/models/MedAIBase/AntAngelMed
Github: https://github.com/MedAIBase/AntAngelMed
在线体验：https://modelscope.cn/studios/MedAIBase/AntAngelMed

模型基本信息

核心亮点

权威基准测试中全球领先的表现：AntAngelMed 在 OpenAI 发布的 HealthBench 评测中，表现超越所有开源模型及一系列顶尖闭源模型；同时，在中国权威医疗评测基准 MedAIBench 中综合排名第一。
先进的医疗能力：AntAngelMed 通过严谨的三阶段训练流程构建专业医疗能力：基于医学语料的持续预训练、高质量指令的监督微调，以及基于 GRPO 的强化学习。该流程使模型具备深厚的医学知识、复杂的诊断推理能力，并严格遵守安全与伦理规范。
极致高效的推理性能：依托Ling-flash-2.0 的高效 MoE 架构，AntAngelMed 在仅激活 100B 参数中的 6.1B 参数的情况下，即可达到约 40B 密集模型的性能水平。在 H20 硬件上推理速度超过 200 tokens/s，并支持 128K 上下文长度。

技术特性

专业的三阶段训练流程

AntAngelMed 采用精心设计的三阶段训练流程，将通用能力与医学专业知识深度融合：

持续预训练（Continual Pre-Training）： 基于 Ling-flash-2.0，AntAngelMed 使用大规模、高质量的医学语料库（百科全书、网络文本、学术出版物）进行持续预训练，注入深厚的领域知识与世界知识。
监督微调（SFT）： 此阶段构建了一个多源异构的高质量指令数据集。通用数据（数学、编程、逻辑）强化了 AntAngelMed 的核心思维链能力，而医学场景（医患问答、诊断推理、安全/伦理）则提供了深度适配，以提升临床表现。
强化学习（RL）： 采用 GRPO 算法和任务特定的奖励模型，RL 精确塑造模型行为——强调共情能力、结构清晰性与安全边界，并鼓励在复杂病例中基于证据进行推理，以减少幻觉并提高准确性。

图 | 专业的三阶段训练流程

高效 MoE 架构与高速推理

AntAngelMed 继承了 Ling-flash-2.0 的先进设计。在 Ling Scaling Laws 指导下，模型采用 1/32 激活比例的 MoE 架构，并对核心组件进行了全面优化，包括专家粒度、共享专家比例、注意力均衡、无辅助损失 + Sigmoid 路由、MTP 层、QK-Norm 以及 Partial-RoPE。

这些改进使小激活量的 MoE 模型相比同等规模的稠密架构，效率最高可提升 7 倍。换言之，AntAngelMed 仅需激活 61 亿参数，即可达到约 400 亿参数稠密模型的性能。由于其激活参数量小，AntAngelMed 具有显著的速度优势：

在 H20 硬件上，推理速度超过 200 tokens/s——约为 360 亿参数稠密模型的 3 倍。
结合 YaRN 外推技术，支持 128K 上下文长度；随着输出长度增加，相对加速比可达 7 倍或更高。

研究团队还专门针对推理加速对 AntAngelMed 进行了优化，采用了 FP8 量化结合 EAGLE3 优化技术。在并发数为 32 的情况下，该方法相比仅使用 FP8 显著提升了推理吞吐量，在 HumanEval 上提升 71%、GSM8K 上提升 45%、Math-500 上最高提升达 94%，在推理性能与模型稳定性之间实现了稳健平衡。

模型基准测试

HealthBench

HealthBench 是 OpenAI 发布的开源医疗评估基准，旨在通过高度仿真的多轮对话评估大语言模型（LLMs）在真实医疗环境中的表现。AntAngelMed 在该基准上表现卓越，在所有开源模型中排名第一，尤其在更具挑战性的 HealthBench-Hard 子集上优势显著。

图 | AntAngelMed 在 HealthBench 开源模型中排名第一

MedAIBench

MedAIBench 是由国家人工智能医疗产业先导区建设单位开发的权威医疗大模型评测体系。AntAngelMed 同样位居顶尖水平，在医学知识问答和医学伦理/安全性方面展现出强大的综合专业性与安全性。

图 | AntAngelMed 在 MedAIBench 中位居顶尖水平

MedBench

MedBench 是一个科学严谨的中文医疗领域大模型评测基准，包含 36 个独立构建的评测数据集，涵盖约 70 万条样本。AntAngelMed 在 MedBench 排行榜上排名第一，并在五大核心维度——医学知识问答、医学语言理解、医学语言生成、复杂医学推理以及安全性与伦理——全面领先，充分体现了模型的专业性、安全性及临床适用性。

图 | AntAngelMed 在 MedBench 排行榜上排名第一

模型调用

魔搭API inference

魔搭免费体验与API inference调用入口都在模型页右侧，欢迎大家免费体验。

蚂蚁官方API体验

访问地址：https://antangelmed.tbox.cn，注册账号后即可体验模型能力。

通过API调用时，需经过API Key鉴权认证。

鉴权认证后，也可查看接口文档进行详细对接。

模型推理

使用vLLM推理

环境准备：

pip install vllm==0.11.0

推理：

from modelscope import AutoTokenizer
from vllm import LLM, SamplingParams
def main():
    model_path = "MedAIBase/AntAngelMed" # model_id or your_local_model_path
    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
    sampling_params = SamplingParams(
        temperature=0.6,
        top_p=0.95,
        top_k=20,
        max_tokens=16384,
    )
    llm = LLM(
        model=model_path,
        trust_remote_code=True,
        dtype="bfloat16",
        tensor_parallel_size=4, 
    )
    prompt = "What should I do if I have a headache?" 
    messages = [
        {"role": "system", "content": "You are AntAngelMed, a helpful medical assistant."},
        {"role": "user", "content": prompt},
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
    )
    outputs = llm.generate([text], sampling_params)
    print(outputs[0].outputs[0].text)
if __name__ == "__main__":
    main()

使用SGLang推理：

环境准备：

pip install sglang -U

也可使用Docker镜像lmsysorg/sglang:latest部署

SGLang 支持 BF16 和 FP也可使用Docker镜像lmsysorg/sglang:latest部署8 模型，具体取决于 $MODEL_PATH 中模型的数据类型（dtype）。两者使用相同的命令如下：

启动服务器

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
    --model-path $MODLE_PATH \
    --host 0.0.0.0 --port $PORT \
    --trust-remote-code \
    --attention-backend fa3 \
    --tensor-parallel-size 4 \
    --served-model-name AntAngelMed

客户端：

curl -s http://localhost:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What should I do if I have a headache?"}]}'

直达模型体验:https://modelscope.cn/models/MedAIBase/AntAngelMed