之江实验室联合华大发布百亿级基因模型 Genos,全基因组“暗物质”迎来解读利器

简介: 之江实验室与华大联合发布百亿参数人类基因组大模型Genos-10B,首创分层混合专家架构与分形注意力机制,实现百万碱基超长序列建模,破解非编码区“功能黑盒”,推动基因组解读从数字化迈向语义化,助力罕见病诊断与精准医学发展。

在 AI for Science (AI4S) 深入生命科学“深水区”的今天,人类基因组的解读正经历从“数字化”向“语义化”的关键跨越。

近日,之江实验室与华大生命科学研究院联合发布了最新版的人类基因组基础模型 Genos-10B。该模型不仅在参数规模上达到百亿级,更通过分层混合专家架构(HMoE)与分形注意力机制(Fractal Attention),实现了百万碱基(1Mb)超长上下文序列与d单碱基精的准建模,为破解 90% 以上非编码区的“功能黑盒”提供了新的技术范式。

同时本次发布会也公布了基于之江 021 科学基础模型与 Genos 基因模型融合的多模态模型 021-Genos,打破了基因序列和领域知识之间的界限,融合模型的多模态智能有效提升了基因型疾病的诊断准确率。


行业背景:海量测序数据下的“理解鸿沟”

自人类基因组草图绘制完成以来,测序成本的指数级下降使得获取 Pb 级全基因组数据(WGS)成为常态。然而,计算层面的瓶颈依然显著:

  • 解读瓶颈:超过 90%基因区域功能尚待解读;
  • 非编码区迷雾:人类基因组中超过 98% 的区域不直接编码蛋白质,这些区域的调控逻辑、长程互作机制由于缺乏有效的解读工具和方式,长期被视为“基因组暗物质”。

传统的基因组 AI 模型多局限于短序列(<10k bp)或特定物种。Genos 的出现,标志着大模型技术开始真正适配人类基因组的超长、高维度特征。


核心技术拆解:如何构建“人类中心化”的基础模型?

针对 AI R&D 人员关注的架构创新,Genos 在数据工程与算法设计上进行了多项创新:

  • 数据底座创新:
  • 不同于既往模型主要依赖单一参考基因组和低质量的基因组草图,Genos 采用了更加“硬核”的语料体系:T2T 级端粒到端粒的完整基因组高质量语料,以及整合了 HPRC(人类泛基因组参考联盟)与 HGSVC 等项目的 636 个T2T级别高精度组装数据。
  • 多样性覆盖:通过引入涵盖全球多民族及中国人群的长读长数据,模型得以捕捉全球人群范围内复杂的基因多样性,从源头避免了模型对于不同人群的偏好性歧视。


  • 架构创新:
  • HMoE :基因组蕴含超维度和极高复杂的信息,Genos 在 Transformer 基础上进行了针对性优化HMoE (Hierarchical Hybrid Mixture-of-Experts):采用分层混合专家架构,通过专家负载均衡与动态路由技术,在保持 10B 参数知识容量的同时,显著提升了推理能效比。
  • Fractal Attention (分形注意力机制)实现百万上下文建模。基因组序列的调控距离往往跨越数个数量级。该机制突破了传统 Attention 随序列长度平方增长的复杂度限制,使模型能够捕捉染色体级别的长程调控相互作用。


实验结果:从元件识别到临床推理的升维

根据研究团队披露的论文数据[1],Genos 在多项标杆任务中表现优异:

  • 单碱基精度预测:在基因功能元件识别评测中,Genos-10B 准确率达到 88.72%。
  • 表达量模拟(RNA-seq Correlation):Genos 能够模拟变异对 RNA 表达的影响。实验显示,其预测结果与真实 RNA-seq 数据表现出极强的相关性,跨越了从序列到多组学预测的障碍。
  • 临床组学诊断:在罕见病诊断案例中,模型展现了联合基因序列与临床文本表型进行推理的能力,其诊断精度已接近资深临床遗传学专家水平。


工程落地:国产算力适配与开源生态

Genos 团队强调了“技术全民化”的理念,针对真实研发场景进行了全栈优化:

  • 全规模开源:同步发布了 1.2B 和 10B 参数版本,适应从个人 PC 到算力集群的不同需求。
  • 国产硬件深度适配:模型已完成在国产算力上的部署优化,并引入 vLLM 推理框架,极大降低了在异构算力环境下的使用门槛。
  • 云端协同: Genos 已部署于华大 DSC Cloud 平台,提供 RESTful API 服务,开发者可直接调用进行 DNA 序列嵌入提取与碱基预测。


开源链接:

GitHub: https:// github.com/zhejianglab/ Genos
ModelScope: https:// modelscope.cn/collectio ns/zhejianglab/Genos
Hugging Face: https:// huggingface.co/collecti ons/ZhejiangLab/genos
之江Zero2x科学家工作台: https://www. zero2x.org/genos


在线体验平台:

https://cloud.stomics.tech/#/inferance-web?type=model


走向“编程生物学”的关键一步

AI for Science 已经从概念讨论进入到细分领域的竞争。 Genos 的发布不仅仅是参数量的竞争,更是计算范式的变革。它将建模对象从传统的局部序列拓展到了全基因组尺度。之江实验室和华大生命科学研究院借助 Genos 的发布在这场生物 AI 的竞赛中抢占了先机。


对于 AI 研发人员,Genos 提供了处理极长序列、复杂动态路由的工程参考;对于生物研发人员,它则是一台可以透视“基因组暗物质”的高分辨率显微镜。随着 Genos 生态的开源,全基因组尺度的生命机制解读或许将迎来真正的爆发。


如果你对 Genos 的 HMoE 专家调度逻辑或 Fractal Attention 的代码实现感兴趣,欢迎在github 留言区与开发团队直接互动,他们回复超快~!


论文:

Genos Team. GigaScience (2025). Genos: A Human-Centric Genomic Foundation Model. (Manuscript No. GIGA-S-25-00574). Available from https://github.com/zhejianglab/Genos


点击即可跳转模型合集

https://modelscope.cn/collections/zhejianglab/Genos


目录
相关文章
|
1天前
|
人工智能 测试技术 API
一线工程师 2025 总结:LLM 只用了不到 10%,剩下 90% 卡在哪?
2025年,LLM能力爆发,但多数企业仅用到其10%。真正瓶颈不在模型强弱,而在工程落地:延迟不可控、并发崩溃、换模成本高、成本失控成常态。当LLM从“工具”变为“基础设施”,中转层与系统稳定性成为关键。释放剩余90%潜力,需扎实的架构设计与工程治理。
|
3天前
|
人工智能 自然语言处理 运维
业内首发泛娱乐底座大模型!元象开源XVERSE-Ent中英双模型,单卡部署超低门槛
元象开源首款聚焦泛娱乐场景的大模型XVERSE-Ent,含中英双版本,专精角色一致性、长剧情理解与多元语境适配,支持轻量化部署,助力开发者低成本打造AI社交、游戏与创意内容应用。
91 2
|
22天前
|
人工智能 物联网 测试技术
ModelScope魔搭社区发布月报 -- 25年12月
魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型,Z-Image-Turbo引领文生图生态,平台全面升级加速开源模型落地。
220 8
|
11天前
|
前端开发 关系型数据库 MySQL
PHP:从入门到高效的Web开发利器
PHP:从入门到高效的Web开发利器
173 117
|
9天前
|
人工智能 自然语言处理 API
MiniMax M2.1开源:多语言编程SOTA,为真实世界复杂任务而生
MiniMax正式开源M2.1模型,全面提升多语言编程、办公自动化与原生App开发能力,支持WebDev、3D渲染、Agent工具链等复杂任务,性能媲美Claude Opus,免费开放体验。
92 3
MiniMax M2.1开源:多语言编程SOTA,为真实世界复杂任务而生
|
20天前
|
人工智能 安全 数据可视化
面向业务落地的AI产品评测体系设计与平台实现
在AI技术驱动下,淘宝闪购推进AI应用落地,覆盖数字人、数据分析、多模态创作与搜推AI化四大场景。面对研发模式变革与Agent链路复杂性,构建“评什么、怎么评、如何度量”的评测体系,打造端到端质量保障平台,并规划多模态评测、可视化标注与插件市场,支撑业务持续创新。
327 38
|
20天前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
253 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
14天前
|
数据可视化 安全 测试技术
Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架
Anthropic推出开源框架Bloom,可自动化评估大语言模型是否阿谀奉承、有政治倾向或绕过监管等行为。不同于传统基准,Bloom基于配置动态生成测试场景,支持多模型、多样化评估,并提供可视化分析,助力模型安全与对齐研究。(237字)
93 12
Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架