在 AI for Science (AI4S) 深入生命科学“深水区”的今天,人类基因组的解读正经历从“数字化”向“语义化”的关键跨越。
近日,之江实验室与华大生命科学研究院联合发布了最新版的人类基因组基础模型 Genos-10B。该模型不仅在参数规模上达到百亿级,更通过分层混合专家架构(HMoE)与分形注意力机制(Fractal Attention),实现了百万碱基(1Mb)超长上下文序列与d单碱基精的准建模,为破解 90% 以上非编码区的“功能黑盒”提供了新的技术范式。
同时本次发布会也公布了基于之江 021 科学基础模型与 Genos 基因模型融合的多模态模型 021-Genos,打破了基因序列和领域知识之间的界限,融合模型的多模态智能有效提升了基因型疾病的诊断准确率。
行业背景:海量测序数据下的“理解鸿沟”
自人类基因组草图绘制完成以来,测序成本的指数级下降使得获取 Pb 级全基因组数据(WGS)成为常态。然而,计算层面的瓶颈依然显著:
- 解读瓶颈:超过 90%基因区域功能尚待解读;
- 非编码区迷雾:人类基因组中超过 98% 的区域不直接编码蛋白质,这些区域的调控逻辑、长程互作机制由于缺乏有效的解读工具和方式,长期被视为“基因组暗物质”。
传统的基因组 AI 模型多局限于短序列(<10k bp)或特定物种。Genos 的出现,标志着大模型技术开始真正适配人类基因组的超长、高维度特征。
核心技术拆解:如何构建“人类中心化”的基础模型?
针对 AI R&D 人员关注的架构创新,Genos 在数据工程与算法设计上进行了多项创新:
- 数据底座创新:
- 不同于既往模型主要依赖单一参考基因组和低质量的基因组草图,Genos 采用了更加“硬核”的语料体系:T2T 级端粒到端粒的完整基因组高质量语料,以及整合了 HPRC(人类泛基因组参考联盟)与 HGSVC 等项目的 636 个T2T级别高精度组装数据。
- 多样性覆盖:通过引入涵盖全球多民族及中国人群的长读长数据,模型得以捕捉全球人群范围内复杂的基因多样性,从源头避免了模型对于不同人群的偏好性歧视。
- 架构创新:
- HMoE :基因组蕴含超维度和极高复杂的信息,Genos 在 Transformer 基础上进行了针对性优化HMoE (Hierarchical Hybrid Mixture-of-Experts):采用分层混合专家架构,通过专家负载均衡与动态路由技术,在保持 10B 参数知识容量的同时,显著提升了推理能效比。
- Fractal Attention (分形注意力机制)实现百万上下文建模。基因组序列的调控距离往往跨越数个数量级。该机制突破了传统 Attention 随序列长度平方增长的复杂度限制,使模型能够捕捉染色体级别的长程调控相互作用。
实验结果:从元件识别到临床推理的升维
根据研究团队披露的论文数据[1],Genos 在多项标杆任务中表现优异:
- 单碱基精度预测:在基因功能元件识别评测中,Genos-10B 准确率达到 88.72%。
- 表达量模拟(RNA-seq Correlation):Genos 能够模拟变异对 RNA 表达的影响。实验显示,其预测结果与真实 RNA-seq 数据表现出极强的相关性,跨越了从序列到多组学预测的障碍。
- 临床组学诊断:在罕见病诊断案例中,模型展现了联合基因序列与临床文本表型进行推理的能力,其诊断精度已接近资深临床遗传学专家水平。
工程落地:国产算力适配与开源生态
Genos 团队强调了“技术全民化”的理念,针对真实研发场景进行了全栈优化:
- 全规模开源:同步发布了 1.2B 和 10B 参数版本,适应从个人 PC 到算力集群的不同需求。
- 国产硬件深度适配:模型已完成在国产算力上的部署优化,并引入 vLLM 推理框架,极大降低了在异构算力环境下的使用门槛。
- 云端协同: Genos 已部署于华大 DSC Cloud 平台,提供 RESTful API 服务,开发者可直接调用进行 DNA 序列嵌入提取与碱基预测。
开源链接:
GitHub: https:// github.com/zhejianglab/ Genos
ModelScope: https:// modelscope.cn/collectio ns/zhejianglab/Genos
Hugging Face: https:// huggingface.co/collecti ons/ZhejiangLab/genos
之江Zero2x科学家工作台: https://www. zero2x.org/genos
在线体验平台:
https://cloud.stomics.tech/#/inferance-web?type=model
走向“编程生物学”的关键一步
AI for Science 已经从概念讨论进入到细分领域的竞争。 Genos 的发布不仅仅是参数量的竞争,更是计算范式的变革。它将建模对象从传统的局部序列拓展到了全基因组尺度。之江实验室和华大生命科学研究院借助 Genos 的发布在这场生物 AI 的竞赛中抢占了先机。
对于 AI 研发人员,Genos 提供了处理极长序列、复杂动态路由的工程参考;对于生物研发人员,它则是一台可以透视“基因组暗物质”的高分辨率显微镜。随着 Genos 生态的开源,全基因组尺度的生命机制解读或许将迎来真正的爆发。
如果你对 Genos 的 HMoE 专家调度逻辑或 Fractal Attention 的代码实现感兴趣,欢迎在github 留言区与开发团队直接互动,他们回复超快~!
论文:
Genos Team. GigaScience (2025). Genos: A Human-Centric Genomic Foundation Model. (Manuscript No. GIGA-S-25-00574). Available from https://github.com/zhejianglab/Genos
点击即可跳转模型合集
https://modelscope.cn/collections/zhejianglab/Genos