简单有趣的 NLP 教程：手把手教你用 PyTorch 辨别自然语言（附代码）-阿里云开发者社区

简单有趣的 NLP 教程：手把手教你用 PyTorch 辨别自然语言（附代码）

2017-08-02 1330

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_基础版，每接口每天50万次

简介：

最近在学pyTorch的实际应用例子。这次说个简单的例子：给定一句话，判断是什么语言。这个例子是比如给定一句话：

Give it to me

判断是 ENGLISH

me gusta comer en la cafeteria

判断是 SPANISH

就是这么简单的例子。

来看怎么实现：

准备数据格式 [(语句，类型)，...]

data是train的时候用的语句，test_data是test的时候用的语句

data = [ ("me gusta comer en la cafeteria".split(), "SPANISH"),
         ("Give it to me".split(), "ENGLISH"),
         ("No creo que sea una buena idea".split(), "SPANISH"),
         ("No it is not a good idea to get lost at sea".split(), "ENGLISH") ]
test_data = [("Yo creo que si".split(), "SPANISH"),
              ("it is lost on me".split(), "ENGLISH")]

因为文本计算机室识别不出来的，他们只认识01串，也就是数字。所以我们得把文本映射到数字上。

word_to_ix = {}
for sent, _ in data + test_data:
    for word in sent:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)
print(word_to_ix)

输出word_to_ix (意思是word to index)是：

{'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}

这里先提前设置下接下来要用到的参数

VOCAB_SIZE = len(word_to_ix)
NUM_LABELS = 2#只有两类 ENGLISH  SPANISH

固定模板

def init(self, num_labels, vocab_size)：初始化，就是输入和输出的大小。这里我们要输入是一个句子，句子最大就是拥有所有字典的词，这里也就是vocab_size(下面再说怎么将一句话根据字典转换成一个数字序列的)，输出就是分类，这里分为2类，即num_labels。这里我们用的是线性分类，即nn.Linear()。

def forward(self, bow_vec)：bow_vec是一个句子的数字化序列，经过self.linear()得到一个线性结果(也就是预测结果)，之后对这个结果进行softmax(这里用log_softmax是因为下面的损失函数用的是NLLLoss() 即负对数似然损失，需要log以下)

class BoWClassifier(nn.Module):#nn.Module 这是继承torch的神经网络模板
    def __init__(self, num_labels, vocab_size): 
        super(BoWClassifier, self).__init__()
        self.linear = nn.Linear(vocab_size, num_labels)
    def forward(self, bow_vec):
        return F.log_softmax(self.linear(bow_vec))

def make_bow_vector(sentence, word_to_ix)

大概能看懂什么意思吧。就是把一个句子sentence通过word_to_ix转换成数字化序列.比如 sentence=我是一只小小鸟 word_to_id={你:0,我:1,他:2,不:3,是:4,大:5,小:6,猪:7,鸟:8,,} make_bow_vector之后的结果是[0,1,0,0,1,0,2,0,1]。view()就是改变下向量维数。

这里是讲len(word_to_ix)1->1len(word_to_ix)

def make_bow_vector(sentence, word_to_ix):
    vec = torch.zeros(len(word_to_ix))
    for word in sentence:
        vec[word_to_ix[word]] += 1
    return vec.view(1, -1)

这个就不用说了吧一样。(如果想知道torch.LongTensor啥意思的话。可以看看。Torch中，Tensor主要有ByteTensor（无符号char），CharTensor（有符号)，ShortTensor(shorts), IntTensor(ints), LongTensor(longs), FloatTensor(floats), DoubleTensor(doubles)，默认存放为double类型，如果需要特别指出，通过torch.setdefaulttensortype()方法进行设定。例如torch.setdefaulttensortype(‘torch.FloatTensor’)。 )

def make_target(label, label_to_ix):
    return torch.LongTensor([label_to_ix[label]])

这里再介绍下model.parameters()这个函数。他的返回结果是model里的所有参数。这里我们用的是线性函数，所以就是f(x)=Ax+b中的A和b(x即输入的数据)，这些参数在之后的反馈和更新参数需要的。

model = BoWClassifier(NUM_LABELS, VOCAB_SIZE)
for param in model.parameters():
    print("param:", param)

可以看出A是2len(vocab_size)，b是21

param: Parameter containing:

Columns 0 to 9 
 0.0786  0.1596  0.1259  0.0054  0.0558 -0.0911 -0.1804 -0.1526 -0.0287 -0.1086
-0.0651 -0.1096 -0.1807 -0.1907 -0.0727 -0.0179  0.1530 -0.0910  0.1943 -0.1148

Columns 10 to 19 
 0.0452 -0.0786  0.1776  0.0425  0.1194 -0.1330 -0.1877 -0.0412 -0.0269 -0.1572
-0.0361  0.1909  0.1558  0.1309  0.1461 -0.0822  0.1078 -0.1354 -0.1877  0.0184

Columns 20 to 25 
 0.1818 -0.1401  0.1118  0.1002  0.1438  0.0790
 0.1812 -0.1414 -0.1876  0.1569  0.0804 -0.1897
[torch.FloatTensor of size 2x26]

param: Parameter containing:
 0.1859
 0.1245
[torch.FloatTensor of size 2]

我们再看看model的def forward(self, bow_vec):怎么用。这里就想下面的代码一样，直接在mode()填一个参数即可，就调用forward函数。

sample = data[0]
bow_vector = make_bow_vector(sample[0], word_to_ix)
log_probs = model(autograd.Variable(bow_vector))
print("log_probs", log_probs)

输出是：（就是log_softmax后的值）

log_probs Variable containing:
-0.6160 -0.7768
[torch.FloatTensor of size 1x2]

我们这里看看在test上的预测

label_to_ix = { "SPANISH": 0, "ENGLISH": 1 }
for instance, label in test_data:
    bow_vec = autograd.Variable(make_bow_vector(instance, word_to_ix))
    log_probs = model(bow_vec)
    print log_probs
print next(model.parameters())[:,word_to_ix["creo"]]

结果是

Variable containing:
-0.5431 -0.8698
[torch.FloatTensor of size 1x2]

Variable containing:
-0.7405 -0.6480
[torch.FloatTensor of size 1x2]

Variable containing:
-0.0467
 0.1065
[torch.FloatTensor of size 2]

下面就该进行重要的部分了。

循环训练和更新参数

这里我们用的损失函数是nn.NLLLoss()负对数似然损失，优化依然用的最常见的optim.SGD() 梯度下降法，一般训练5-30次最终优化基本不再变化。

每一步过程：

a. 首先都要model.zero_grad()，因为接下来要极端梯度，得清零，以防问题

b. 将数据向量化(也可以说是数字序列化，转成计算机能看懂的形式)

c. 得到预测值

d. 求损失loss_function

e. 求梯度loss.backward()

f. 更新参数optimizer.step()

loss_function = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

for epoch in range(100):
    for instance, label in data:
        model.zero_grad()

        bow_vec = autograd.Variable(make_bow_vector(instance, word_to_ix))
        target = autograd.Variable(make_target(label, label_to_ix))

        log_probs = model(bow_vec)

        loss = loss_function(log_probs, target)
        loss.backward()
        optimizer.step()

在测试集上测试

for instance, label in test_data:
    bow_vec = autograd.Variable(make_bow_vector(instance, word_to_ix))
    log_probs = model(bow_vec)
    print log_probs

我们在结果上很容易看到第一个例子预测是SPANISH最大，第二个是ENGLISH最大。成功了。

Variable containing:
-0.0842 -2.5161
[torch.FloatTensor of size 1x2]

Variable containing:
-2.4886 -0.0867
[torch.FloatTensor of size 1x2]

====================================分割线================================

本文作者：AI研习社

本文转自雷锋网禁止二次转载，原文链接

简单有趣的 NLP 教程：手把手教你用 PyTorch 辨别自然语言（附代码）

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

简单有趣的 NLP 教程：手把手教你用 PyTorch 辨别自然语言（附代码）

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像