豆蔻妇科大模型宣布在妇产科正高考试中成绩超越GPT-5,同时正式开放试用

简介: 在钉钉10周年发布会上,壹生检康CEO王强宇宣布其自主研发的豆蔻妇科大模型(doukou.ai)在国家妇产科卫生高级职称笔试考试中以64.94分超越GPT-5的52.59分,并开放网页版试用。这一成绩展现了国产医疗AI在专业化赛道的快速进步和垂直行业大模型的高应用价值,为AI赋能医疗临床提供了新样本。

在钉钉10周年发布会上,壹生检康CEO王强宇宣布,其自主研发的豆蔻妇科大模型(doukou.ai),在国家妇产科卫生高级职称(正高)笔试考试中成绩以64.94分的成绩超过GPT-5的52.59分,同时正式开放网页版试用这一结果不仅彰显了国产医疗人工智能在专业化赛道上的快速进步,也展示了垂直行业大模型更高的实际应用价值,为人工智能赋能医疗临床实践提供了新的样本。


专业考试验证垂直行业大模型性能

本次测评严格采用国家卫健委指定的人卫版《妇产科高级职称考试全真模拟卷》,考试范围覆盖临床妇产科学、妇科肿瘤、围产期医学、生殖内分泌、计划生育等12个核心学科,题型包含多选题(占比40%)和案例分析题(占比60%)两大题型。其中,案例分析题要求模型根据患者主诉、检查报告等多源信息,解决临床诊断、鉴别诊断、治疗方案等问题,全面考察临床决策能力,需要全部正确才能得分,评判标准高于人类实际考试标准。


在相同的测试环境下测评结果显示,豆蔻妇科大模型在整体得分上领先GPT-5 11.31分,不仅在知识覆盖度上更契合中国妇产科的临床体系,还在病例解析和诊疗路径推荐等应用场景中展现出更强的专业性与实用性。

豆蔻大模型由壹生检康(杭州)生命科技有限公司研发。壹生检康创始人、CEO王强宇表示,“测评聚焦于中国妇产科体系的理论知识和高标准临床决策,豆蔻妇科大模型的优势建立在其高度本土化和垂直化的训练之上。而在通用知识、多模态能力、逻辑推理的广度上,通用大模型依然拥有其不可替代的优势,两者是互补而非简单的取代关系。在具体行业的深度应用上,垂直大模型拥有比通用大模型更高的实用价值”

王强宇认为,垂直行业大模型的核心优势体现在三个方面:第一,行业 know-how,垂直模型深度结合行业知识体系与专家经验,能精准匹配专业领域的逻辑与流程,垂直模型更懂行业。第二,高质量数据,相比通用语料,垂直模型能够利用规范化、标准化、权威化的高质量数据,从而在可靠性与准确性上更有保障。第三,快速迭代, 专业团队可根据临床反馈以及最新指南不断更新迭代,形成“专家—数据—模型”的闭环,提升更新速度与实用价值。“豆蔻大模型正是依靠深耕妇产科的专业know-how、结合高质量的临床数据训练,并通过与医生群体的互动迭代来取得比GPT-5更强的专业性能”。


据了解,豆蔻妇科大模型基于钉钉企业专属AI平台研发迭代。钉钉企业专属AI平台及大模型训练服务体系,为豆蔻大模型训练提供了从数据治理、高效训练到灵活部署的完整端到端工具链和服务支持。壹生检康团队将豆蔻妇科大模型训练平台转移到钉钉企业专属AI平台后,在数据处理、算力增加、模型优化等环节进行了多方位调整。通过钉钉企业 AI 专属平台的分布式训练、多 Lora 部署等加速优化手段,将单次训练时长从 26 小时缩短至 7 小时,降幅高达 73%。“钉钉提供的不仅仅是资源,更是方法论,钉钉行业专属模型团队在训练过程中提供的快速响应和专家级指导,大大提升了训练效率,助力豆蔻模型快速迭代升级 !豆蔻产品负责人陈宇表示

豆蔻充实国产大模型生态

随着国家对数据安全、医疗合规和自主可控的高度重视,国产医疗大模型在专业领域的突破具有更加深远的战略意义。医疗作为关乎民生的重点行业,更需要在人工智能底层能力上实现自主可控。豆蔻的成绩说明,中国不仅可以在大模型赛道中发展通用型产品,更可以通过行业化、专业化的路线,形成差异化竞争力。这也意味着,在医疗、教育、金融、制造等对专业性要求极高的行业中,国产垂直大模型将成为重要力量。

专家指出,中国拥有庞大的医疗体系和丰富的临床数据资源,这是构建本土化垂直行业大模型的独特优势。随着产业链逐渐完善、政策支持不断强化,未来中国将有望形成一个通用大模型与垂直大模型并存、协同发展的生态格局,在全球人工智能产业中占据更重要的地位。

王强宇说,“人工智能不会取代医生,但能够成为医生的重要助手。通过与钉钉合作,我们探索并验证了一条高效构建企业专属大模型的成功路径,并愿意将此经验分享给医疗行业,愿有更多的企业拥用自己的专属大模型,大家一起在 “AI + 医疗” 的创新实践中走出一条具有本土特色的发展道路”。

豆蔻妇科大模型体验地址:http://doukou.ai/

目录
相关文章
开源项目推荐:3D重建开源库Colmap/OpenMVG/OpenMVS/Fade2D/2.5D
开源项目推荐:3D重建开源库Colmap/OpenMVG/OpenMVS/Fade2D/2.5D
914 0
|
7月前
|
数据采集 人工智能 自然语言处理
豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%
在医疗AI领域,通用大模型因缺乏专业临床判断力而难以胜任复杂诊断任务。本文以豆蔻妇科大模型为例,介绍了通过监督微调(SFT)显著提升诊断准确率的实践路径。从初始77.1%到最终90.2%的突破,依托高质量数据筛选、思维链校准、双重评估体系及钉钉训练平台支持,展示了医疗大模型从“知其然”到“知其所以然”的演进过程,并展望SFT+RL协同训练的未来发展。
586 59
|
存储 Shell 网络安全
|
7月前
|
Web App开发 安全 测试技术
Playwright-MCP浏览器会话复用全解析
本文深入解析Playwright-MCP实现浏览器会话复用的核心技术,包括状态持久化(cookies/localStorage存储)和直接连接已打开浏览器实例(通过CDP协议)。通过多上下文隔离与安全机制设计,提供企业级应用场景的优化方案,帮助开发者提升测试效率并降低资源消耗。
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
1538 1
|
移动开发 前端开发 JavaScript
前端跨域的解决方案?
前端跨域的解决方案?
389 0
|
JavaScript NoSQL 前端开发
|
小程序 Java 关系型数据库
基于Java微信小程序校园订餐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java微信小程序校园订餐系统设计和实现(源码+LW+调试文档+讲解等)
|
JSON JavaScript 前端开发
qml的文件结构及其对象基本属性
qml的文件结构及其对象基本属性
447 2
|
算法 安全 物联网
什么是ECC?ECC 和 RSA 之间有何区别?
什么是ECC?ECC 和 RSA 之间有何区别?
3012 1

热门文章

最新文章