Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🧫 「生物博士的噩梦终结者!凌晨3点还在比对百万碱基?现在AI一键生成基因编辑器!」
大家好,我是蚝油菜花。如果你经历过——

  • 🔬 为定位一个SNP位点,手动筛查十万级基因序列
  • 🧬 设计合成质粒时,反复试错启动子组合
  • 📊 预测BRCA1突变效应,结果被Nature审稿人质疑方法...

那么今天介绍的 Evo 2 将改变你的科研人生!这个由斯坦福×英伟达联合研发的DNA大模型,能像读小说一样解析百万碱基序列,自动生成高活性基因编辑器,甚至预测变异对蛋白结构的影响。合成生物实验室已用它缩短70%实验周期——是时候让AI接管移液枪了!

🚀 快速阅读

Evo 2 是一个突破性的 DNA 语言模型,专注于基因组建模与设计。

  1. 长上下文建模:支持高达百万碱基对的 DNA 序列处理,精度极高。
  2. 生成与预测能力:具备 DNA 序列生成、零样本变异预测等功能,适用于合成生物学与疾病研究。

Evo 2 是什么

Evo 2

Evo 2 是由 Acr 研究所、英伟达和斯坦福大学合作开发的一款先进 DNA 语言模型。该模型基于 StripedHyena 2 架构,能够以单核苷酸分辨率处理长达 100 万个碱基对的基因组序列。Evo 2 使用 OpenGenome2 数据集进行自回归预训练,该数据集包含来自生命所有领域的 8.8 万亿个标记,覆盖细菌、古菌和真核生物等多个领域。

Evo 2 不仅可以用于基因组建模,还能够生成新的 DNA 序列,为合成生物学和基因编辑提供支持。此外,它还可以提取嵌入向量,用于下游分析,如基因功能预测和变异效应评估。Evo 2 的推出标志着基因组学研究迈入了一个新时代,为生物医学和合成生物学等领域带来了巨大的潜力。

Evo 2 的主要功能

  • 长上下文建模:处理长达 100 万个碱基对的 DNA 序列,支持高精度的基因组建模。
  • DNA 序列生成:根据给定提示生成新的 DNA 序列,适用于合成生物学和基因编辑。
  • 嵌入向量提取:提取 DNA 序列的嵌入向量,用于下游分析,如基因功能预测和变异效应分析。
  • 零样本预测:支持零样本学习,例如预测基因变异对功能的影响(如 BRCA1 基因变异效应预测)。
  • 序列评分:计算 DNA 序列的似然分数,评估序列的稳定性和功能潜力。

Evo 2 的技术原理

  • 大规模数据训练:基于超过 9.3 万亿个核苷酸的数据进行训练,涵盖多个生命领域的基因组信息。
  • 独特的 AI 架构:采用 StripedHyena 2 架构,处理长基因序列并理解基因组中相距较远部分之间的关系。
  • 深度学习与生成生物学:通过深度学习技术理解核酸序列,预测基因突变影响并生成新基因组。
  • 强大的计算支持:利用英伟达 DGX Cloud AI 平台和超过 2000 个 H100 GPU,实现高效的模型训练。

如何运行 Evo 2

1. 安装环境

Evo 2 基于 Python 3.11 开发,部分层使用 NVIDIA Transformer Engine FP8 技术,需要 H100 或其他具有计算能力 ≥8.9 的 GPU。推荐使用 Conda 创建新环境并安装依赖:

git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git
cd evo2
pip install .

2. 测试安装

确保安装成功,可以通过以下命令运行测试脚本:

python ./test/test_evo2.py --model_name evo2_7b

3. 使用示例

DNA 序列评分

以下代码展示如何计算 DNA 序列的似然分数:

import torch
from evo2 import Evo2

evo2_model = Evo2('evo2_7b')

sequence = 'ACGT'
input_ids = torch.tensor(
    evo2_model.tokenizer.tokenize(sequence),
    dtype=torch.int,
).unsqueeze(0).to('cuda:0')

outputs, _ = evo2_model(input_ids)
logits = outputs[0]

print('Logits: ', logits)
print('Shape (batch, length, vocab): ', logits.shape)

DNA 序列生成

以下代码展示如何生成新的 DNA 序列:

from evo2 import Evo2

evo2_model = Evo2('evo2_7b')

output = evo2_model.generate(prompt_seqs=["ACGT"], n_tokens=400, temperature=1.0, top_k=4)

print(output.sequences[0])

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
传感器 人工智能 物联网
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
235 19
|
1月前
|
人工智能 编解码
ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作
ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。
305 0
|
30天前
|
人工智能 搜索推荐 物联网
InfiniteYou:写真AI革命!字节核弹级AI秒出定制人像,身份保持度拉满
InfiniteYou 是字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,结合多阶段训练策略,生成高质量、高相似度的图像,兼容多种现有工具,适用于多种应用场景。
370 29
InfiniteYou:写真AI革命!字节核弹级AI秒出定制人像,身份保持度拉满
|
1月前
|
人工智能 监控 搜索推荐
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。
149 32
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
|
23天前
|
人工智能 搜索推荐 前端开发
OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解
OpenDeepSearch是基于开源推理模型的深度搜索工具,通过语义重排和多源整合优化检索效果,支持与AI代理无缝集成,提供快速和专业两种搜索模式。
151 10
OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解
|
3天前
|
人工智能 Java 开发者
通义灵码:当AI成为你的编程搭档,效率革命已经到来
本文介绍了通义灵码作为AI编程伙伴的革命性意义及其技术特点。基于阿里云通义代码大模型CodeQwen1.5,它具备多模态代码理解、意图推理和跨语言知识融合能力,可重构开发者工作流,从智能编码到Debug预警再到文档自动化全面提升效率。数据显示,其能将常规开发时间缩短60%,错误率下降43%,新技术上手速度提升2倍。未来,通义灵码将推动需求-代码双向翻译、架构自演进等全新编程形态,助力开发者聚焦更高价值领域,开启人机共生的编程新时代。
52 9
|
26天前
|
人工智能 自然语言处理
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。
93 7
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
|
2天前
|
人工智能 自然语言处理 Java
通义灵码:AI编程助手如何重塑开发者的效率革命?
通义灵码是阿里云推出的一款基于通义大模型的智能编程助手,支持Java、Python、Go等主流语言,并深度适配VSCode、JetBrains等开发环境。其核心功能包括自然语言转代码、跨文件上下文理解、行级/函数级实时补全、自动生成单元测试及性能优化建议等。此外,还提供知识问答引擎、文档智能生成和研发大数据分析等进阶功能,助力开发者提升效率。通过重构生产关系,将重复劳动转化为创造性工作,使技术债务可视化,推动人机协同编程新时代的到来。
40 1
|
27天前
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
74 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
156 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格

热门文章

最新文章

推荐镜像

更多