斯坦福NLP课程 | 第1讲 - NLP介绍与词向量初步

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: NLP课程第1讲直接切入语言和词向量,讲解自然语言处理的基本概念、文本表征的方法和演进、包括word2vec等核心方法,词向量的应用等。

ShowMeAI研究中心

作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/36
本文地址http://www.showmeai.tech/article-detail/231
声明:版权所有,转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容


NLP介绍与词向量初步
ShowMeAI斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!

词向量、SVD分解与Word2vec
本讲内容的深度总结教程可以在这里 查看。视频和课件等资料的获取方式见文末


引言

NLP介绍与词向量初步

CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程。核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。

ShowMeAI将从本节开始,依托cs224n课程为主框架,逐篇为大家梳理NLP的核心重点知识原理。

本篇内容覆盖:

Introduction and Word Vectors

第1课直接切入语言和词向量,讲解了自然语言处理的基本概念,文本表征的方法和演进,包括word2vec等核心方法,词向量的应用等。

  • 自然语言与文字
  • word2vec介绍
  • word2vec目标函数与梯度
  • 算法优化基础
  • word2vec构建的词向量模式

1. 自然语言与词汇含义

1.1 人类的语言与词汇含义

咱们先来看看人类的高级语言。

人类的语言与词汇含义

人类之所以比类人猿更“聪明”,是因为我们有语言,因此是一个人机网络,其中人类语言作为网络语言。人类语言具有信息功能和社会功能。

据估计,人类语言只有大约5000年的短暂历史。语言和写作是让人类变得强大的原因之一。它使知识能够在空间上传送到世界各地,并在时间上传送。

但是,相较于如今的互联网的传播速度而言,人类语言是一种缓慢的语言。然而,只需人类语言形式的几百位信息,就可以构建整个视觉场景。这就是自然语言如此迷人的原因。

1.2 我们如何表达一个词的意思?

我们如何表达一个词的意思?

我们如何表达一个词的含义呢?有如下一些方式:

  • 用一个词、词组等表示的概念
  • 一个人想用语言、符号等来表达的想法
  • 表达在作品、艺术等方面的思想


理解意义的最普遍的语言方式(linguistic way):语言符号与语言意义(想法、事情)的相互对应

  • denotational semantics:语义

equation?tex=signifier%28symbol%29%20%5CLeftrightarrow%20signified%28idea%20%5Cquad%20or%20%5Cquad%20thing%29

1.3 如何在计算机里表达词的意义

要使用计算机处理文本词汇,一种处理方式是WordNet:即构建一个包含同义词集和上位词(“is a”关系)的列表的辞典。英文当中确实有这样一个 wordnet,我们在安装完NLTK工具库和下载数据包后可以使用,对应的 python 代码如下:

from nltk.corpus import wordnet as wn
poses = { 'n':'noun', 'v':'verb', 's':'adj (s)', 'a':'adj', 'r':'adv'}
for synset in wn.synsets("good"):
        print("{}: {}".format(poses[synset.pos()], ", ".join([l.name() for l in synset.lemmas()])))

from nltk.corpus import wordnet as wn
panda = wn.synset("panda.n.01")
hyper = lambda s: s.hypernyms()
list(panda.closure(hyper))

结果如下图所示:

如何在计算机里表达词的意义

1.4 WordNet的问题

WordNet的问题

WordNet大家可以视作1个专家经验总结出来的词汇表,但它存在一些问题:

$$1$$ 忽略了词汇的细微差别

  • 例如“proficient”被列为“good”的同义词。这只在某些上下文中是正确的。

$$2$$ 缺少单词的新含义

  • 难以持续更新!
  • 例如:wicked、badass、nifty、wizard、genius、ninja、bombast

$$3$$ 因为是小部分专家构建的,有一定的主观性

$$4$$ 构建与调整都需要很多的人力成本

$$5$$ 无法定量计算出单词相似度

1.5 文本(词汇)的离散表征

文本(词汇)的离散表征

  • 在传统的自然语言处理中,我们会对文本做离散表征,把词语看作离散的符号:例如hotel、conference、motel等。


  • 一种文本的离散表示形式是把单词表征为独热向量(one-hot vectors)的形式

    • 独热向量:只有一个1,其余均为0的稀疏向量


在独热向量表示中,向量维度 = 词汇量(如500,000),以下为一些独热向量编码过后的单词向量示例:

equation?tex=motel%20%3D%20%5B0%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%201%20%5C%200%20%5C%200%20%5C%200%20%5C%200%5D


equation?tex=hotel%20%3D%20%5B0%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%201%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%5D

1.6 离散表征的问题

离散表征的问题

在上述的独热向量离散表征里,所有词向量是正交的,这是一个很大的问题。对于独热向量,没有关于相似性概念,并且向量维度过大。


对于上述问题有一些解决思路

  • ① 使用类似WordNet的工具中的列表,获得相似度,但会因不够完整而失败
  • ② 通过大量数据学习词向量本身相似性,获得更精确的稠密词向量编码

1.7 基于上下文的词汇表征

近年来在深度学习中比较有效的方式是基于上下文的词汇表征。它的核心想法是:一个单词的意思是由经常出现在它附近的单词给出的 “You shall know a word by the company it keeps” (J. R. Firth 1957: 11)

这是现代统计NLP最成功的理念之一,总体思路有点物以类聚,人以群分的感觉。

  • 当一个单词 equation?tex=w 出现在文本中时,它的上下文是出现在其附近的一组单词(在一个固定大小的窗口中)
  • 基于海量数据,使用 equation?tex=w 的许多上下文来构建 equation?tex=w 的表示

如图所示,banking的含义可以根据上下文的内容表征。

基于上下文的词汇表征

2.Word2vec介绍

2.1 词向量表示

词向量表示

下面我们要介绍词向量的构建方法与思想,我们希望为每个单词构建一个稠密表示的向量,使其与出现在相似上下文中的单词向量相似。

  • 词向量(word vectors)有时被称为词嵌入(word embeddings)或词表示(word representations)。
  • 稠密词向量是分布式表示(distributed representation)。

2.2 Word2vec原理介绍

Word2vec原理介绍

Word2vec (Mikolov et al. 2013)是一个学习词向量表征的框架。


核心思路如下:

  • 基于海量文本语料库构建
  • 词汇表中的每个单词都由一个向量表示(学习完成后会固定)
  • 对应语料库文本中的每个位置 equation?tex=t,有一个中心词 equation?tex=c 和一些上下文(“外部”)单词 equation?tex=o
  • 使用 equation?tex=cequation?tex=o 的词向量来计算概率 equation?tex=P%28o%7Cc%29,即给定中心词推断上下文词汇的概率(反之亦然)
  • 不断调整词向量来最大化这个概率


下图为窗口大小 equation?tex=j%3D2 时的 equation?tex=P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%5Cright%29,它的中心词为 equation?tex=into

Word2vec原理介绍


下图为窗口大小 equation?tex=j%3D2 时的 equation?tex=P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%5Cright%29,它的中心词为 equation?tex=banking

Word2vec原理介绍

3.Word2vec 目标函数

3.1 Word2vec目标函数

我们来用数学表示的方式,对word2vec方法做一个定义和讲解。

3.1.1 似然函数

对于每个位置 equation?tex=t%3D1%2C%20%5Ccdots%2C%20T,在大小为 equation?tex=m 的固定窗口内预测上下文单词,给定中心词 equation?tex=w_j,似然函数可以表示为:

equation?tex=Likelihoood%20%3D%20L%28%5Ctheta%29%20%3D%20%5Cprod%5E%7BT%7D_%7Bt%3D1%7D%20%5Cprod_%7B-m%20%5Cleq%20j%20%5Cleq%20m%20%5Catop%20j%20%5Cneq%200%7D%20P%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%29

上述公式中,equation?tex=%5Ctheta 为模型包含的所有待优化权重变量

3.1.2 目标函数

Word2vec目标函数

对应上述似然函数的目标函数 equation?tex=J%28%5Ctheta%29 可以取作(平均)负对数似然:

equation?tex=J%28%5Ctheta%29%3D-%5Cfrac%7B1%7D%7BT%7D%20%5Clog%20L%28%5Ctheta%29%3D-%5Cfrac%7B1%7D%7BT%7D%20%5Csum_%7Bt%3D1%7D%5E%7BT%7D%20%5Csum_%7B-m%20%5Cleq%20j%20%5Cleq%20m%20%5Catop%20j%20%5Cneq%200%7D%20%5Clog%20P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%5Cright%29

注意:

  • 目标函数 equation?tex=J%28%5Ctheta%29 有时也被称为“代价函数”或“损失函数
  • 最小化目标函数 equation?tex=%5CLeftrightarrow 最大化似然函数(预测概率/精度),两者等价


补充解读

  • 上述目标函数中的log形式是方便将连乘转化为求和,负号是希望将极大化似然率转化为极小化损失函数的等价问题
  • 在连乘之前使用log转化为求和非常有效,特别是做优化时

equation?tex=%5Clog%20%5Cprod_i%20x_i%20%3D%20%5Csum_i%20%5Clog%20x_i


得到目标函数后,我们希望最小化目标函数,那我们如何计算 equation?tex=P%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%29

Word2vec目标函数

对于每个词 equation?tex=w 都会用两个向量:

  • equation?tex=w 是中心词时,我们标记词向量为 equation?tex=v_w
  • equation?tex=w 是上下文词时,我们标记词向量为 equation?tex=u_w


则对于一个中心词 equation?tex=c 和一个上下文词 equation?tex=o,我们有如下概率计算方式:equation?tex=P%28o%20%7C%20c%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28u_%7Bo%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D%7B%5Csum_%7Bw%20%5Cin%20V%7D%20%5Cexp%20%5Cleft%28u_%7Bw%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D

Word2vec目标函数

对于上述公式,ShowMeAI 做一点补充解读:

  • 公式中,向量 equation?tex=u_o 和向量 equation?tex=v_c 进行点乘
  • 向量之间越相似,点乘结果越大,从而归一化后得到的概率值也越大
  • 模型的训练正是为了使得具有相似上下文的单词,具有相似的向量
  • 点积是计算相似性的一种简单方法,在注意力机制中常使用点积计算 Score,参见 ShowMeAI 文章 深度学习教程 | Seq2Seq序列模型和注意力机制

3.2 从向量视角回顾Word2vec

从向量视角回顾Word2vec

下图为计算 equation?tex=P%28w_%7Bt%2Bj%7D%20%7Cw_%7Bt%7D%29 的示例,这里把 equation?tex=P%28problems%7Cinto%3B%20u_%7Bproblems%7D%2Cv_%7Binto%7D%2C%5Ctheta%29 简写为 equation?tex=P%28u_%7Bproblems%7D%20%7C%20v_%7Binto%7D%29,例子中的上下文窗口大小2,即“左右2个单词+一个中心词”。

4.Word2vec prediction function

4.1 Word2vec预测函数

回到上面的概率计算,我们来观察一下

Word2vec预测函数

equation?tex=P%28o%20%7C%20c%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28u_%7Bo%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D%7B%5Csum_%7Bw%20%5Cin%20V%7D%20%5Cexp%20%5Cleft%28u_%7Bw%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D

  • 取幂使任何数都为正
  • 点积比较 equation?tex=oequation?tex=c 的相似性 equation?tex=u%5E%7BT%7D%20v%3Du%20.%20v%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%20u_%7Bi%7D%20v_%7Bi%7D,点积越大则概率越大
  • 分母:对整个词汇表进行标准化,从而给出概率分布


这里有一个softmax的概率,softmax function equation?tex=%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D 示例:

将任意值 equation?tex=x_i 映射到概率分布 equation?tex=p_i

equation?tex=%5Coperatorname%7Bsoftmax%7D%5Cleft%28x_%7Bi%7D%5Cright%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28x_%7Bi%7D%5Cright%29%7D%7B%5Csum_%7Bj%3D1%7D%5E%7Bn%7D%20%5Cexp%20%5Cleft%28x_%7Bj%7D%5Cright%29%7D%3Dp_%7Bi%7D


其中对于名称中soft和max的解释如下(softmax在深度学习中经常使用到):

  • max:因为放大了最大的概率
  • soft:因为仍然为较小的 equation?tex=x_i 赋予了一定概率

4.2 word2vec中的梯度下降训练细节推导

下面是对于word2vec的参数更新迭代,应用梯度下降法的一些推导细节,ShowMeAI写在这里做一点补充。

首先我们随机初始化 equation?tex=u_%7Bw%7D%5Cin%5Cmathbb%7BR%7D%5Edequation?tex=v_%7Bw%7D%5Cin%5Cmathbb%7BR%7D%5Ed,而后使用梯度下降法进行更新

equation?tex=%5Cbegin%7Baligned%7D%20%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20P%28o%7Cc%29%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Cleft%28%5Clog%20%5Cexp%28u_o%5ETv_c%29-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Cleft%28u_o%5ETv_c-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3Du_o-%5Cfrac%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29u_w%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%20%5Cend%7Baligned%7D


偏导数可以移进求和中,对应上方公式的最后两行的推导

equation?tex=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%5Csum_iy_i%20%3D%20%5Csum_i%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Dy_i


我们可以对上述结果重新排列如下,第一项是真正的上下文单词,第二项是预测的上下文单词。使用梯度下降法,模型的预测上下文将逐步接近真正的上下文。

equation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20P%28o%7Cc%29%20%26%3Du_o-%5Cfrac%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29u_w%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Du_o-%5Csum_%7Bw%5Cin%20V%7D%5Cfrac%7B%5Cexp%28u_w%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7Du_w%5C%5C%20%26%3Du_o-%5Csum_%7Bw%5Cin%20V%7DP%28w%7Cc%29u_w%20%5Cend%7Baligned%7D


再对 equation?tex=u_o 进行偏微分计算,注意这里的 equation?tex=u_oequation?tex=u_%7Bw%3Do%7D 的简写,故可知

equation?tex=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Csum_%7Bw%20%5Cin%20V%20%7D%20u_w%5ET%20v_c%20%3D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%20u_o%5ET%20v_c%20%3D%20%5Cfrac%7B%5Cpartial%20u_o%7D%7B%5Cpartial%20u_o%7Dv_c%20%2B%20%5Cfrac%7B%5Cpartial%20v_c%7D%7B%5Cpartial%20u_o%7Du_o%3D%20v_cequation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Clog%20P%28o%7Cc%29%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Clog%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cleft%28%5Clog%20%5Cexp%28u_o%5ETv_c%29-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cleft%28u_o%5ETv_c-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3Dv_c-%5Cfrac%7B%5Csum%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cexp%28u_w%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Dv_c%20-%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29v_c%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Dv_c%20-%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7Dv_c%5C%5C%20%26%3Dv_c%20-%20P%28o%7Cc%29v_c%5C%5C%20%26%3D%281-P%28o%7Cc%29%29v_c%20%5Cend%7Baligned%7D


可以理解,当 equation?tex=P%28o%7Cc%29%20%5Cto%201,即通过中心词 equation?tex=c 我们可以正确预测上下文词 equation?tex=o,此时我们不需要调整 equation?tex=u_o,反之,则相应调整 equation?tex=u_o 。关于此处的微积分知识,可以查阅ShowMeAI的教程图解AI数学基础文章图解AI数学基础 | 微积分与最优化

word2vec中的梯度下降训练细节推导

  • 训练模型的过程,实际上是我们在调整参数最小化损失函数。
  • 如下是一个包含2个参数的凸函数,我们绘制了目标函数的等高线。

4.3 训练模型:计算所有向量梯度

训练模型:计算所有向量梯度

  • equation?tex=%5Ctheta 代表所有模型参数,写在一个长的参数向量里。
  • 在我们的场景汇总是 equation?tex=d 维向量空间的 equation?tex=V 个词汇。

5.视频教程

可以点击 B站 查看视频的【双语字幕】版本

6.参考资料

ShowMeAI系列教程推荐

NLP系列教程文章

斯坦福 CS224n 课程带学详解

ShowMeAI用知识加速每一次技术成长

目录
相关文章
|
4月前
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
231 2
|
4月前
|
机器学习/深度学习 自然语言处理 数据可视化
自然语言处理 Paddle NLP - 词向量应用展示
自然语言处理 Paddle NLP - 词向量应用展示
50 0
|
6月前
|
机器学习/深度学习 自然语言处理 PyTorch
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
|
机器学习/深度学习 自然语言处理 数据可视化
NLP复习之【使用飞桨PaddleNLP计算词向量、句向量】
NLP复习之【使用飞桨PaddleNLP计算词向量、句向量】
390 0
|
机器学习/深度学习 自然语言处理 数据可视化
NLP复习之【使用飞桨构造生成词向量】(下)
NLP复习之【使用飞桨构造生成词向量】
207 0
|
数据采集 存储 自然语言处理
NLP复习之【使用飞桨构造生成词向量】(上)
NLP复习之【使用飞桨构造生成词向量】
112 0
|
机器学习/深度学习 数据采集 人工智能
斯坦福NLP课程 | 第20讲 - NLP与深度学习的未来
NLP课程第20讲是课程最后一讲,介绍了NLP的兴起历程和发展方向,包括使用未标记数据进行翻译、大模型、GPT-2、QuAC、HotPotQA等。
482 1
斯坦福NLP课程 | 第20讲 - NLP与深度学习的未来
|
机器学习/深度学习 自然语言处理
②机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
379 0
②机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
|
机器学习/深度学习 自然语言处理 Python
①机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
569 0
①机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
|
机器学习/深度学习 人工智能 自然语言处理
NLP 学习:Transformer 公开课课程大纲(21-30)
NLP 学习:Transformer 公开课课程大纲(21-30)
568 0