一文概览NLP算法(Python)（下）

2022-06-08 476

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 一文概览NLP算法(Python)

2.6 相似度算法（句子关系的任务）

自然语言处理任务中，我们经常需要判断两篇文档的相似程度（句子关系），比如检索系统输出最相关的文本，推荐系统推荐相似的文章。文本相似度匹配常用到的方法有：文本编辑距离、WMD、 BM2.5、词向量相似度、Approximate Nearest Neighbor以及一些有监督的(神经网络)模型判断文本间相似度。

2.7 文本分类任务

文本分类是经典的NLP任务，就是将文本系列对应预测到类别。

一种是输入序列输出这整个序列的类别，如短信息、微博分类、意图识别等。

另一种是输入序列输出序列上每个位置的类别，上文提及的系列标注可以看做为词粒度的一种分类任务，如实体命名识别。

分类任务使用预训练+(神经网络)分类模型的端对端学习是主流，深度学习学习特征的表达然后进行分类，大大减少人工的特征。但以实际项目中的经验来看，对于一些困难任务（任务的噪声大），加入些人工的特征工程还是很有必要的。

2.8 文本生成任务

文本生成也就是由类别生成序列或者由序列到序列的预测任务。按照不同的输入划分，文本自动生成可包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-text generation)、数据到文本的生成(data-to-text generation)以及图像到文本的生成(image-to-text generation)等。具体应用如机器翻译、文本摘要理解、阅读理解、闲聊对话、写作、看图说话。常用的模型如RNN、CNN、seq2seq、Transformer。

同样的，基于大规模预训练模型的文本生成也是一大热门，可见《A Survey of Pretrained Language Models Based Text Generation》

三、垃圾短信文本分类实战

3.1 读取短信文本数据并展示

本项目是通过有监督的短信文本，学习一个垃圾短信文本分类模型。数据样本总的有5572条，label有spam（垃圾短信）和ham两种，是一个典型类别不均衡的二分类问题。

#源码可见https://github.com/aialgorithm/Blog importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt spam_df=pd.read_csv('./data/spam.csv',header=0,encoding="ISO-8859-1") #数据展示 _,ax=plt.subplots(1,2,figsize=(10,5)) spam_df['label'].value_counts().plot(ax=ax[0],kind="bar",rot=90,title='label'); spam_df['label'].value_counts().plot(ax=ax[1],kind="pie",rot=90,title='label',ylabel=''); print("Datasetsize:",spam_df.shape) spam_df.head(5)

3.2 数据清洗预处理

数据清洗在于去除一些噪声信息，这里对短信文本做按空格分词，统一大小写，清洗非英文字符，去掉停用词并做了词干还原。考虑到短信文本里面的数字位数可能有一定的含义，这里将数字替换为‘x’的处理。最后，将标签统一为数值（0、1）是否垃圾短信。

#导入相关的库 importnltk fromnltkimportword_tokenize fromnltk.corpusimportstopwords fromnltk.dataimportload fromnltk.stemimportSnowballStemmer fromstringimportpunctuation importre#正则匹配 stop_words=set(stopwords.words('english')) non_words=list(punctuation) #词形、词干还原 #fromnltk.stemimportWordNetLemmatizer #wnl=WordNetLemmatizer() stemmer=SnowballStemmer('english') defstem_tokens(tokens,stemmer): stems=[] fortokenintokens: stems.append(stemmer.stem(token)) returnstems ###清除非英文词汇并替换数值x defclean_non_english_xdig(txt,isstem=True,gettok=True): txt=re.sub('[0-9]','x',txt)#去数字替换为x txt=txt.lower()#统一小写 txt=re.sub('[^a-zA-Z]','',txt)#去除非英文字符并替换为空格 word_tokens=word_tokenize(txt)#分词 ifnotisstem:#是否做词干还原 filtered_word=[wforwinword_tokensifnotwinstop_words]#删除停用词 else: filtered_word=[stemmer.stem(w)forwinword_tokensifnotwinstop_words]#删除停用词及词干还原 ifgettok:#返回为字符串或分词列表 returnfiltered_word else: return"".join(filtered_word) spam_df['token']=spam_df.message.apply(lambdax:clean_non_english_xdig(x)) spam_df.head(3) #数据清洗 spam_df['token']=spam_df.message.apply(lambdax:clean_non_english_xdig(x)) #标签整数编码 spam_df['label']=(spam_df.label=='spam').astype(int) spam_df.head(3)

3.3 fasttext词向量表示学习

我们需要将单词文本转化为数值的词向量才能输入模型。词向量表示常用的词袋、fasttext、bert等方法，这里训练的是fasttext，模型的主要输入参数是，输入分词后的语料（通常训练语料越多越好，当现有语料有限时候，直接拿github上合适的大规模预训练模型来做词向量也是不错的选择），词向量的维度size（一个经验的词向量维度设定是，dim > 8.33 logN, N为词汇表的大小，当维度dim足够大才能表达好这N规模的词汇表的含义。可参考《# 最小熵原理（六）：词向量的维度应该怎么选择？By 苏剑林》）。语料太大的时候可以使用workers开启多进程训练（其他参数及词表示学习原理后续会专题介绍，也可以自行了解）。

#训练词向量Fasttextembed模型 fromgensim.modelsimportFastText,word2vec fmodel=FastText(spam_df.token,size=100,sg=1,window=3,min_count=1,iter=10,min_n=3,max_n=6,word_ngrams=1,workers=12) print(fmodel.wv['hello'])#输出hello的词向量 #fmodel.save('./data/fasttext100dim')

按照句子所有的词向量取平均，为每一句子生成句向量。

fmodel=FastText.load('./data/fasttext100dim') #对每个句子的所有词向量取均值，来生成一个句子的vector defbuild_sentence_vector(sentence,w2v_model,size=100): sen_vec=np.zeros((size,)) count=0 forwordinsentence: try: sen_vec+=w2v_model[word]#.reshape((1,size)) count+=1 exceptKeyError: continue ifcount!=0: sen_vec/=count returnsen_vec #句向量 sents_vec=[] forsentinspam_df['token']: sents_vec.append(build_sentence_vector(sent,fmodel,size=100))

print(len(sents_vec))

3.4 训练文本分类模型

示例采用的fasttext embedding + lightgbm的二分类模型，类别不均衡使用lgb代价敏感学习解决（即class_weight='balanced'），超参数是手动简单配置的，可以自行搜索下较优超参数。

###训练文本分类模型 fromsklearn.model_selectionimporttrain_test_split fromlightgbmimportLGBMClassifier fromsklearn.linear_modelimportLogisticRegression train_x,test_x,train_y,test_y=train_test_split(sents_vec,spam_df.label,test_size=0.2,shuffle=True,random_state=42) result=[] clf=LGBMClassifier(class_weight='balanced',n_estimators=300,num_leaves=64,reg_alpha=1,reg_lambda=1,random_state=42) #clf=LogisticRegression(class_weight='balanced',random_state=42) clf.fit(train_x,train_y) importpickle #保存模型 pickle.dump(clf,open('./saved_models/spam_clf.pkl','wb')) #加载模型 model=pickle.load(open('./saved_models/spam_clf.pkl','rb'))

3.5 模型评估

训练集测试集按0.2划分，分布验证训练集测试集的AUC、F1score等指标，均有不错的表现。

fromsklearn.metricsimportauc,roc_curve,f1_score,precision_score,recall_score defmodel_metrics(model,x,y,tp='auc'): """评估""" yhat=model.predict(x) yprob=model.predict_proba(x)[:,1] fpr,tpr,_=roc_curve(y,yprob,pos_label=1) metrics={'AUC':auc(fpr,tpr),'KS':max(tpr-fpr), 'f1':f1_score(y,yhat),'P':precision_score(y,yhat),'R':recall_score(y,yhat)} roc_auc=auc(fpr,tpr) plt.plot(fpr,tpr,'k--',label='ROC(area={0:.2f})'.format(roc_auc),lw=2) plt.xlim([-0.05,1.05])#设置x、y轴的上下限，以免和边缘重合，更好的观察图像的整体 plt.ylim([-0.05,1.05]) plt.xlabel('FalsePositiveRate') plt.ylabel('TruePositiveRate')#可以使用中文，但需要导入一些库即字体 plt.title('ROCCurve') plt.legend(loc="lowerright") returnmetrics print('train',model_metrics(clf,train_x,train_y,tp='ks')) print('test',model_metrics(clf,test_x,test_y,tp='ks'))

一文概览NLP算法(Python)（下）

2.6 相似度算法（句子关系的任务）

2.7 文本分类任务

2.8 文本生成任务

三、垃圾短信文本分类实战

3.1 读取短信文本数据并展示

3.2 数据清洗预处理

3.3 fasttext词向量表示学习

3.4 训练文本分类模型

3.5 模型评估

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

一文概览NLP算法(Python)（下）

2.6 相似度算法（句子关系的任务）

2.7 文本分类任务

2.8 文本生成任务

三、垃圾短信文本分类实战

3.1 读取短信文本数据并展示

3.2 数据清洗预处理

3.3 fasttext词向量表示学习

3.4 训练文本分类模型

3.5 模型评估

热门文章

最新文章

相关课程

相关电子书

推荐镜像