MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(1)

简介: MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 3 期进行连载,共介绍 19 生物制药任务上曾取得 SOTA 的经典模型。


  • 第 1 期:RaptorX、AlphaFold、AlphaFold2、RoseTTAFold、DeepAccNet、ESMFold
  • 第 2 期:OmegaFold、EquBind、RELATION、BIMODAL、GF-VAE、MCMG
  • 第 3 期:MGM、MolGPT、Iterative Refinement LSTM、PAR、Uni-Mol、K-Bert、MolCLR

您正在阅读的是其中的第 3 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾:RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(一)

第 2 期回顾:OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)



本期收录模型速览

模型 SOTA!模型资源站收录情况 模型来源论文
MGM https://sota.jiqizhixin.com/project/mgm Masked graph modeling for molecule generation
MolGPT https://sota.jiqizhixin.com/project/molgpt MolGPT: Molecular Generation Using a Transformer-Decoder Model
Iterative Refinement LSTM https://sota.jiqizhixin.com/project/iterative-refinement-lstm Low Data Drug Discovery with One-Shot Learning
PAR https://sota.jiqizhixin.com/project/par-3 Property-Aware Relation Networks for Few-Shot Molecular Property Prediction
Uni-Mol https://sota.jiqizhixin.com/project/uni-mol Uni-Mol: A Universal 3D Molecular Representation Learning Framework
K-Bert https://sota.jiqizhixin.com/project/k-bert Knowledge-based BERT: a method to extract molecular features like computational chemists
MolCLR https://sota.jiqizhixin.com/project/molclr Molecular contrastive learning of representations via graph neural networks


1990年代后期,计算生物学开始成为生物学中非常重要的一部分。在大热的AlphaFold掀起浪潮之前,就有科学家断言:所有生物学都是计算生物学。AI或者深度学习的出现,给计算生物学带来了新的巨大的发展空间。

对于生物学本身,传统的实验和分析手段已难以充分开发海量生物数据,确实需要计算生物学这种跨学科同时兼顾多个细分领域的综合性工具来解决问题。在具体实验方法上,当前绝大多数采用的都是基于已有数据库和资源、利用成熟工具来解决特定问题或自行设计统计分析、数值计算的方法,而计算生物学的出现让干湿实验结合的新方法开始走向主流(在生物上讲,干实验就是通过计算机模拟以及生物信息学方法来进行研究。湿实验就是通过在实验室里采用分子、细胞、生理学试验方法进行研究)。引入AI,实现了对在传统的湿实验环境中的假设的验证,干湿实验共同迭代加速,AI和传统科研结合带来的巨大潜能,有望带来一场全新的科学革命。

在计算生物学中,AI的应用主要有三类:一是,计算推演生物性质及原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测(PPI)、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。(生物标志物是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。)这些研究的成果后续可用于得到新的药物靶点等,为疾病治疗提供基本思路。二是搭建预测及判断模型,包括:AI制药中基于靶点的化合物性质预测(主要涉及小分子药物开发),疾病诊断/监控/治疗建模,涵盖细胞/器官/人体的生物模拟器等。其中,生物模拟器的本质功能是用于验证特定疗法有效性的生物模拟器,可以简单理解为生物医药领域的数字孪生。三是对生物体进行控制改造,包括:新疗法/药物开发、精准医疗和生物制造(以合成生物学为代表)。其中新疗法/药物开发是目前落地最成熟的场景。再往细来说,对癌症的个性化治疗和基因组学也将成为精准医疗中最先落地的场景。AI应用于新药开发,可以实现药物靶点发现、药物筛选和结构优化、合成路线等。

本文聚焦于生物制药中必备的TOP模型,具体来说就是第三类AI应用中的主要模型,可以运用到整个药物从研发、中试到生产的所有关键技术环节。上面提及的第二类AI应用主要是生物医药领域的数字孪生,不包含在本文的讨论范围内。

本文回顾的必备TOP模型主要包括蛋白质结构预测和蛋白设计、分子生成、分子表征和性质预测这三类应用,而化学合成/逆合成及其它大数据分析应用等,暂不包含在本文讨论的模型范围中。AI的各种模型和算法应用在生物制药领域,需要与对应的生物学、医学知识高度结合,因此,本报告中对必备TOP模型的介绍主要是从AI建模的角度对模型总体架构和整体设计思路进行介绍,各个模型设计的技术细节、模型调参等思路和技术创新点,需结合原文和所应用的医学场景深入理解。



、分子生成


1、 MGM

分子设计是一个具有挑战性的问题,可应用于药物发现和材料设计。作者引入了一个掩码图(Masked Graph)模型,该模型通过捕捉未观察到的节点(原子)和边(键)的条件分布来学习图上的分布。


图1模型结构


图1给出了Masked Graph模型图,包括特征化的细节。首先将顶点和边嵌入图G/η中,分别得到连续表示𝐡_𝑣𝑖∈ℝ^𝑑0和𝐡_𝑒𝑖,𝑗∈ℝ^𝑑0,其中,d0是连续表示空间的维数。然后,将这些表征传递给一个信息传递神经网络(message passing neural network,MPNN)。使用MPNN作为模型的基本组成部分,因为它对图的同构性是不变的。一个MPNN层包括一个聚合步骤,将每个节点的相邻节点的信息聚合起来,然后是一个更新步骤,使用聚合的信息来更新每个节点的表述。将L层叠加起来建立一个MPNN;所有L层的参数都是相同的。对于除最后一层以外的所有层,从第l层输出的更新的节点和边缘表示被送入第l+1层。与原始版本的MPNN不同,还在每一层维护和更新每个边的表征。可以使用有效地模拟节点和边缘特征之间关系的图神经网络的任何变体,如MPNN。


图2 MPNN更新步骤


\MPNN的节点和边的更新步骤图如图20。在MPNN的每一层,首先通过计算每个节点vi的累积信息𝐮(𝑙)𝑣𝑖,使用聚合函数Jv和相邻节点之间的空间残差连接R来更新其隐藏状态。



同样,每条边𝐡𝑒𝑖,𝑗的隐藏状态也使用以下规则对所有j∈N(i)进行更新:



边缘附带节点的两个隐藏表征之和通过Je,一个两层全连接网络,在两层之间有ReLU激活,产生一个新的潜在边缘表征。然后,节点投影层𝐴𝑣:ℝ𝑑0→Λ𝑇和边缘投影层𝐴𝑒:ℝ𝑑0→Λ𝑅处理来自最后一层的节点和边缘表示,其中ΛT和ΛR分别为节点和边缘类型的概率简化。结果是所有𝑣和所有𝑒的分布p(v∣G\η)和p(e∣G\η)。

使用六个节点属性来表示每个节点,索引为{𝜅∈ℤ:1≤𝜅≤6},每个节点都有自己的独热嵌入。图2中的每个节点对应于分子中的一个重原子。在前向传递过程中,这些嵌入中的每一个都乘以一个单独的权重矩阵𝑊𝜅∈ℝ𝑇𝜅×𝑑0,其中Tκ是属性κ的类别数。由此产生的连续嵌入被加在一起,形成一个节点的整体嵌入。每个属性的独热嵌入为:

  • 原子类型:原子的化学符号(如C、N、O)。
  • 氢数:与该原子结合的氢原子的数量。
  • 电荷:原子上的净电荷,其中第一个指数代表数据集中原子上的最小电荷,最后一个指数代表最大电荷。
  • Chirality type:未指定,顺时针四面体,逆时针四面体,其他。
  • 环内:原子是或不是环状结构的一部分。
  • Is-aromatic: 原子是或不是芳香环的一部分。

在用MPNN处理图形后,将每个节点的表示通过六个独立的全连接的两层网络,层与层之间有ReLU激活。对于每个节点,每个网络的输出是对其中一个属性的初始独热向量的类别分布。在训练过程中,计算预测的分布和被corruption过程掩盖的所有属性的ground-truth之间的交叉熵损失。对某一特定属性进行masked的节点的选择与对所有其他属性的选择无关。这样做的目的是为了让模型能够更容易地学习不同属性类型之间的关系。

对于边属性嵌入来说,使用与节点属性嵌入描述相同的框架。只使用一个具有权重矩阵W∈ℝ𝑅×𝑑0的边缘属性,其独热嵌入定义如下:

  • 键的类型:无,单,双,三或芳烃键。


项目 SOTA!平台项目详情页
MGM 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/mgm


2、 MolGPT

应用深度学习技术从头生成分子(de novo generation of molecules),被称为逆向分子设计,在药物设计中获得了巨大的吸引力。用SMILES符号将分子表示为一串字符,这使得自然语言处理中最先进的模型,如Transformer,可以用于一般的分子设计。受已被证明能成功生成有意义文本的生成性预训练(generative pre-training,GPT)模型的启发,在本研究中利用 masked self-attention对下一个标记预测任务进行transformer-decoder 训练,以生成类药物分子。

训练和生成MolGPT模型的示意图如图3所示。对于无条件训练,分子SMILES首先使用SMILES标记器进行标记,然后在下一个标记预测任务中训练模型:


图3使用MolGPT模型进行训练和生成的流程

对于性质和骨架条件的训练,作者使用RDkit提取分子性质和骨架,并将它们作为条件与分子SMILES一起传递。生成过程则是首先给模型提供一个开始的标记,模型按顺序预测下一个标记,从而生成一个分子,然后,向模型提供一组分子性质和骨架条件以及开始标记来对分子进行采样。

模型的架构如图3所示,该模型基本上是生成预训练Transformer(GPT)模型的迷你版。与GPT1有大约110M的参数不同,MolGPT只有大约6M的参数。MolGPT由堆叠的解码器块组成,每个解码器块都是由masked的自注意力层和全连接神经网络组成。全连接神经网络的最后一层返回一个大小为256的向量,然后作为下一个解码器块的输入。MolGPT由八个这样的解码器块组成。为跟踪输入序列的顺序,将位置值嵌入分配给每个标记。在条件训练期间,提供分段标记以区分条件标记和SMILS标记。分段标记的嵌入表示特定输入是条件还是分子SMILES令牌,以便于通过模型区分两者。使用嵌入层将所有分子SMILES标记映射到256维向量。类似地,使用单独的可训练嵌入层来将位置标记和分段标记映射到256维向量。然后将这些SMILES的标记嵌入、位置嵌入和分段标记嵌入相加,为SMILES的每个标记产生大小为256的向量,然后将其作为输入传递给模型。


图4 MolGPT模型结构


项目 SOTA!平台项目详情页
MolGPT 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/transformer-xl


三、分子表征和性质预测

1、Iterative Refinement LSTM

分子性质预测在药物发现中有着重要的作用,可以识别具有目标特性的候选分子。同时,分子性质预测也是一个小样本问题,因为标记数据很少。通常,在分子性质预测领域使用机器学习方法建立分子结构和特定特性之间的联系的方法由两部分组成:一个分子编码器,将分子结构编码为固定长度的分子表示;一个预测器,它根据分子表示估计某个属性的活性。

这项工作展示了如何利用一次性学习来显著降低药物发现应用中预测所需的数据量,具体引入了一个新的迭代细化长短期记忆(the iterative refinement long short-term memory)架构,当它与图卷积神经网络结合时,可以显著提高对小分子有意义的距离度量的学习。

注意力机制a取决于两个嵌入函数f : X → R^p和 g : X → R^p,它们将输入的样本(在小分子空间)嵌入到一个连续的表示空间。在过去的工作中,f和g都是标准卷积网络,而在这项工作中,f和g是图卷积网络。嵌入向量f(x)和{g(x_i)}之间的相似性是用相似性度量k(-, -)计算的。考虑到相似度的选择,一个简单的注意力机制a可以通过将相似度值归一化来定义



当f(x)与其他g(x_j )相比在度量k下更接近g(xi)时,a(x, x_i)较大。这种one-shot学习的表述被称为Siamese one-shot learning 方法。

上述简单的one-shot学习公式使用了独立的嵌入f(x)和g(x_i),只有距离度量k将两个特征图的信息联系在一起。因此,特征图f(x)是在没有任何关于支持S中可用数据的背景下形成的。匹配网络架构(matching-network)则通过开发完整的上下文嵌入来解决这个问题,其中,嵌入f(x)=f(x | S)和g(x_i)=g(x_i | S)是使用x和S计算的。完整的上下文嵌入允许x和x_i的嵌入相互影响。从经验上看,这种增加允许更强的one-shot学习结果。为了构建f(x | S)和g(x_i | S),匹配网络使用标准卷积神经网络计算嵌入f'(x)和g'(x)。嵌入g(x)的计算方法是将所有g(x_i)放入一个向量,并使用双向LSTM(BiLSTM)将所有元素连接起来,使每个g(x_i)受到所有g'(x_j )的影响。



为了计算嵌入f(x | S),匹配网络利用了一个基于上下文的注意力LSTM模型(attLSTM)。这个模型计算其输入的独立顺序组合.

the iterative refinement LSTM架构保留了匹配网络的上下文感知设计,但解决了上面提到的支持-嵌入g的顺序依赖性以及查询和支持的非对称处理。核心思想是使用attLSTM生成查询嵌入f和支持嵌入g。匹配网络嵌入需要支持嵌入g(- | S)来定义f(- | S)。为了解决这个问题,图23的架构同时迭代演化了这两个嵌入。

在第一次迭代中,定义f(x) = f'(x),g(S) = g'(S)。然后,使用注意力机制迭代更新嵌入f和g。这种结构使嵌入可以迭代地相互通知。下面的公式说明了在每个迭代中进行的全部更新


图5 用于药物发现的一次性学习的网络结构示意图

如图6,生成的双重嵌入被用来进行一次性学习。


图6 嵌入的迭代细化的图形描述。为了说明问题,输入/输出是二维的,q1和q2构成坐标轴。红色和蓝色的点代表正/负样本(仅用于说明)。原始嵌入g′(S)显示为方块。预期的特征r显示为空圆圈

在图卷积系统中,每个节点都有一个描述符的向量。然而,在预测时,我们将需要整个图的一个固定大小的向量描述符。引入一个新的图收集卷积层,它简单地将图中所有节点的所有特征向量相加,得到一个图特征向量(见图25)。这些图形卷积操作对于将小分子转化为连续的矢量表示很有用。这样的表征正在成为在深度网络中操纵小分子的一种强大方式。早期的one-shot学习使用卷积神经网络将图像编码为连续矢量,然后用来进行单次预测。通过类比,使用图卷积神经网络将小分子编码为适合one-shot预测的形式。


图7 本文描述的主要图形操作的图形表示。对于每个操作,被操作的节点都显示为蓝色,未被改变的节点显示为浅蓝色。对于图卷积和图池化,操作显示为单个节点v,这些操作是同时对图中的所有节点v进行的

项目 SOTA!平台项目详情页

Iterative Refinement LSTM

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/iterative-refinement-lstm


2、 PAR

这项工作提出了一个属性感知关系网络(Property-Aware Relation,PAR)来处理分子性质预测问题,具体利用了相关的子结构和分子之间的关系在不同的分子特性中都会发生变化这一事实。此外,设计了一个自适应关系图学习模块,以联合估计分子关系图和完善分子嵌入的目标属性,从而使有限的标签能够有效地在类似分子之间传播。采用元学习策略,在任务中选择性地更新参数,以便分别建立通用知识和属性意识知识模型。


图7 PAR结构,我们绘制了一个来自Tox21的2-way 2-shot任务。PAR对一组任务进行了优化。在每个任务Tτ中,带虚线的模块在支持集Sτ上进行微调,带实线的模块是固定的。一个查询分子x_τ,i首先将使用基于图的分子编码器表示为g_τ,i,然后通过属性感知嵌入函数转换为p_τ,i。这个p_τ,i进一步与S_τ中的分子在关系图上的嵌入共同拟合为h_τ,i,作为最终的分子嵌入并用于类别预测

我们的目标是,从一组为数不多的分子特性预测任务{Tτ }中学习一个预测器,并对给定的几个标记分子进行泛化以预测新的特性。第τ个任务T_τ预测索引为i的分子x_τ,i在目标属性上是活跃的(y_τ,i = 1)还是不活跃的(y_τ,i = 0),前提是每类有少量的K标记样本。然后,这个Tτ被表述为一个双向的K-shot分类任务,支持集Sτ = {(xτ,i, yτ,i)},包含2K个标记的样本,查询集Qτ = {(x_τ,j , y_τ,j )},包含(Nτ)^q个未标记的待分类样本。

首先,使用一个基于图的分子编码器,为每个x_τ,i提取一个长度为d^g的分子嵌入,这个基于图的分子编码器的参数表示为Wg。然而,现有的基于图形的分子编码器不能捕捉到属性意识的子结构。特别是在跨任务学习时,一个分子可以被评估为多个属性。这导致了分子和属性之间的一对多的关系,这使得少数的分子属性预测变得特别困难。我们的目标是隐含地捕捉嵌入空间中的子结构,即Tτ的目标属性。令c表示类c∈{0, 1}的类原型,计算为



把这些类的原型作为Tτ的上下文信息,并把它们编码到x_τ,i的分子嵌入中,如下所示


其中,b_τ,i是使用按比例的点积自注意力来计算的,这样,每个g_τ,i都可以以维度的方式与类原型进行比较。然后得到属性感知的分子嵌入p_τ,i,即

MLP_Wp表示以Wp为参数的多层感知器(MLP),引入MLP_Wp以寻找一个低维空间,该空间编码与Tτ的目标属性更相关的子结构。这种情景化的p_τ,i是具有属性意识的,它可以对目标属性有更多的预测性。


图8 在Tox21的两个任务中共存的相同分子的关系图的示例。红色(蓝色)边缘意味着连接的分子在目标属性上都是活跃(不活跃)的

除了相关的子结构外,分子之间的关系也会在不同的属性中发生变化。如图27所示,具有共同属性的两个分子在另一个属性上可能是不同的。因此,进一步提出了一个自适应的关系图学习模块,以捕捉和利用分子之间的这种属性意识的关系图,从而使有限的标记能够在相似的分子之间有效地传播。在这个关系图学习模块中,我们交替地估计分子间关系图的邻接矩阵,并在学习到的关系图上完善分子嵌入,时间为T次。

在第t次迭代中,令(Gτ)^(t)表示关系图,其中,Vτ将Sτ中的2K个分子和Qτ中的一个查询分子作为节点。(Gτ)^(t)的相应邻接矩阵表示如下:



理想情况下,x_τ,i、x_τ,j 的属性意识分子嵌入p_τ,i、p_τ,j之间的相似性揭示了它们在当前属性预测任务下的关系。因此,初始设定(h_τ,i)^(0) = p_τ,i。首先使用当前的分子嵌入来估计A_τ^(t)。A_τ^(t)]ij的第(i, j)个元素记录了x_τ,i,和x_τ,j之间的相似性,其计算方法是:



然而,在一个双向K-shot任务中,一个查询分子在Gτ^(t)中只有K个真正的邻居。对于二元分类,在相反的类别中选择一个错误的邻居将严重恶化分子嵌入的质量,特别是当每个类别只提供一个标记的分子。为了避免错误邻居的干扰,进一步将Gτ^(t)简化为K-近邻(KNN)图,其中,将K设定为与S中每一类的标记分子数完全相同。对应前K个最大的[A_τ^(t)]_ij的指数的x_τ,i记录为N (t)(x_τ,i)。然后,我们看到



将每个节点嵌入h(t)与这个更新的关系图上的其他节点嵌入共同适应,编码为Aˆ(t)τ。令Hτ^(t)表征所有节点嵌入,其中,第i行对应于h_τ,i^(t)。Hτ^(t)的更新方式是

进一步设计一个 neighbor alignment regularizer 来惩罚关系图中错误邻居的选择,具体表述为



将yˆτ,i作为x_τ,i的类别预测(相对于主动/非主动),其计算公式为



最后,PAR的meta-training过程如下:

项目 SOTA!平台项目详情页
PAR 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/par-3
相关文章
|
2月前
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
95 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
2月前
|
机器学习/深度学习 自然语言处理 知识图谱
|
2月前
|
机器学习/深度学习 自然语言处理 算法
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
240 0
|
3月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
106 7
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
4月前
|
机器学习/深度学习 存储 自然语言处理
【NLP-新闻文本分类】3 Bert模型的对抗训练
详细介绍了使用BERT模型进行新闻文本分类的过程,包括数据集预处理、使用预处理数据训练BERT语料库、加载语料库和词典后用原始数据训练BERT模型,以及模型测试。
83 1
|
4月前
|
算法 异构计算
自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决
自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
174 9
|
4月前
|
数据采集 人工智能 数据挖掘
2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛中使用的NEZHA和Bert方案,包括预训练、微调、模型融合、TTA测试集数据增强以及总结和反思。
48 0
|
5月前
|
数据采集 自然语言处理 PyTorch
AIGC之BERT模型
7月更文挑战第5天

热门文章

最新文章