一文概览NLP算法(Python)(下)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 一文概览NLP算法(Python)

2.6 相似度算法(句子关系的任务)


自然语言处理任务中,我们经常需要判断两篇文档的相似程度(句子关系),比如检索系统输出最相关的文本,推荐系统推荐相似的文章。文本相似度匹配常用到的方法有:文本编辑距离、WMD、 BM2.5、词向量相似度 、Approximate Nearest Neighbor以及一些有监督的(神经网络)模型判断文本间相似度。



2.7 文本分类任务


文本分类是经典的NLP任务,就是将文本系列对应预测到类别。


  • 一种是输入序列输出这整个序列的类别,如短信息、微博分类、意图识别等。


  • 另一种是输入序列输出序列上每个位置的类别,上文提及的系列标注可以看做为词粒度的一种分类任务,如实体命名识别。


分类任务使用预训练+(神经网络)分类模型的端对端学习是主流,深度学习学习特征的表达然后进行分类,大大减少人工的特征。但以实际项目中的经验来看,对于一些困难任务(任务的噪声大),加入些人工的特征工程还是很有必要的。



2.8 文本生成任务


文本生成也就是由类别生成序列 或者 由序列到序列的预测任务。按照不同的输入划分,文本自动生成可包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-text generation)、数据到文本的生成(data-to-text generation)以及图像到文本的生成(image-to-text generation)等。具体应用如机器翻译、文本摘要理解、阅读理解、闲聊对话、写作、看图说话。常用的模型如RNN、CNN、seq2seq、Transformer。



同样的,基于大规模预训练模型的文本生成也是一大热门,可见《A Survey of Pretrained Language Models Based Text Generation》


三、垃圾短信文本分类实战


3.1 读取短信文本数据并展示


本项目是通过有监督的短信文本,学习一个垃圾短信文本分类模型。数据样本总的有5572条,label有spam(垃圾短信)和ham两种,是一个典型类别不均衡的二分类问题。



#源码可见https://github.com/aialgorithm/Blog importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt spam_df=pd.read_csv('./data/spam.csv',header=0,encoding="ISO-8859-1") #数据展示 _,ax=plt.subplots(1,2,figsize=(10,5)) spam_df['label'].value_counts().plot(ax=ax[0],kind="bar",rot=90,title='label'); spam_df['label'].value_counts().plot(ax=ax[1],kind="pie",rot=90,title='label',ylabel=''); print("Datasetsize:",spam_df.shape) spam_df.head(5)


3.2 数据清洗预处理


数据清洗在于去除一些噪声信息,这里对短信文本做按空格分词,统一大小写,清洗非英文字符,去掉停用词并做了词干还原。考虑到短信文本里面的数字位数可能有一定的含义,这里将数字替换为‘x’的处理。最后,将标签统一为数值(0、1)是否垃圾短信。


#导入相关的库 importnltk fromnltkimportword_tokenize fromnltk.corpusimportstopwords fromnltk.dataimportload fromnltk.stemimportSnowballStemmer fromstringimportpunctuation importre#正则匹配 stop_words=set(stopwords.words('english')) non_words=list(punctuation) #词形、词干还原 #fromnltk.stemimportWordNetLemmatizer #wnl=WordNetLemmatizer() stemmer=SnowballStemmer('english') defstem_tokens(tokens,stemmer): stems=[] fortokenintokens: stems.append(stemmer.stem(token)) returnstems ###清除非英文词汇并替换数值x defclean_non_english_xdig(txt,isstem=True,gettok=True): txt=re.sub('[0-9]','x',txt)#去数字替换为x txt=txt.lower()#统一小写 txt=re.sub('[^a-zA-Z]','',txt)#去除非英文字符并替换为空格 word_tokens=word_tokenize(txt)#分词 ifnotisstem:#是否做词干还原 filtered_word=[wforwinword_tokensifnotwinstop_words]#删除停用词 else: filtered_word=[stemmer.stem(w)forwinword_tokensifnotwinstop_words]#删除停用词及词干还原 ifgettok:#返回为字符串或分词列表 returnfiltered_word else: return"".join(filtered_word) spam_df['token']=spam_df.message.apply(lambdax:clean_non_english_xdig(x)) spam_df.head(3) #数据清洗 spam_df['token']=spam_df.message.apply(lambdax:clean_non_english_xdig(x)) #标签整数编码 spam_df['label']=(spam_df.label=='spam').astype(int) spam_df.head(3)



3.3 fasttext词向量表示学习


我们需要将单词文本转化为数值的词向量才能输入模型。词向量表示常用的词袋、fasttext、bert等方法,这里训练的是fasttext,模型的主要输入参数是,输入分词后的语料(通常训练语料越多越好,当现有语料有限时候,直接拿github上合适的大规模预训练模型来做词向量也是不错的选择),词向量的维度size(一个经验的词向量维度设定是,dim > 8.33 logN, N为词汇表的大小,当维度dim足够大才能表达好这N规模的词汇表的含义。可参考《# 最小熵原理(六):词向量的维度应该怎么选择?By 苏剑林》)。语料太大的时候可以使用workers开启多进程训练(其他参数及词表示学习原理后续会专题介绍,也可以自行了解)。


#训练词向量Fasttextembed模型 fromgensim.modelsimportFastText,word2vec fmodel=FastText(spam_df.token,size=100,sg=1,window=3,min_count=1,iter=10,min_n=3,max_n=6,word_ngrams=1,workers=12) print(fmodel.wv['hello'])#输出hello的词向量 #fmodel.save('./data/fasttext100dim')



按照句子所有的词向量取平均,为每一句子生成句向量。


fmodel=FastText.load('./data/fasttext100dim') #对每个句子的所有词向量取均值,来生成一个句子的vector defbuild_sentence_vector(sentence,w2v_model,size=100): sen_vec=np.zeros((size,)) count=0 forwordinsentence: try: sen_vec+=w2v_model[word]#.reshape((1,size)) count+=1 exceptKeyError: continue ifcount!=0: sen_vec/=count returnsen_vec #句向量 sents_vec=[] forsentinspam_df['token']: sents_vec.append(build_sentence_vector(sent,fmodel,size=100))

print(len(sents_vec))


3.4 训练文本分类模型


示例采用的fasttext embedding + lightgbm的二分类模型,类别不均衡使用lgb代价敏感学习解决(即class_weight='balanced'),超参数是手动简单配置的,可以自行搜索下较优超参数。


###训练文本分类模型 fromsklearn.model_selectionimporttrain_test_split fromlightgbmimportLGBMClassifier fromsklearn.linear_modelimportLogisticRegression train_x,test_x,train_y,test_y=train_test_split(sents_vec,spam_df.label,test_size=0.2,shuffle=True,random_state=42) result=[] clf=LGBMClassifier(class_weight='balanced',n_estimators=300,num_leaves=64,reg_alpha=1,reg_lambda=1,random_state=42) #clf=LogisticRegression(class_weight='balanced',random_state=42) clf.fit(train_x,train_y) importpickle #保存模型 pickle.dump(clf,open('./saved_models/spam_clf.pkl','wb')) #加载模型 model=pickle.load(open('./saved_models/spam_clf.pkl','rb'))


3.5 模型评估


训练集测试集按0.2划分,分布验证训练集测试集的AUC、F1score等指标,均有不错的表现。



fromsklearn.metricsimportauc,roc_curve,f1_score,precision_score,recall_score defmodel_metrics(model,x,y,tp='auc'): """评估""" yhat=model.predict(x) yprob=model.predict_proba(x)[:,1] fpr,tpr,_=roc_curve(y,yprob,pos_label=1) metrics={'AUC':auc(fpr,tpr),'KS':max(tpr-fpr), 'f1':f1_score(y,yhat),'P':precision_score(y,yhat),'R':recall_score(y,yhat)} roc_auc=auc(fpr,tpr) plt.plot(fpr,tpr,'k--',label='ROC(area={0:.2f})'.format(roc_auc),lw=2) plt.xlim([-0.05,1.05])#设置x、y轴的上下限,以免和边缘重合,更好的观察图像的整体 plt.ylim([-0.05,1.05]) plt.xlabel('FalsePositiveRate') plt.ylabel('TruePositiveRate')#可以使用中文,但需要导入一些库即字体 plt.title('ROCCurve') plt.legend(loc="lowerright") returnmetrics print('train',model_metrics(clf,train_x,train_y,tp='ks')) print('test',model_metrics(clf,test_x,test_y,tp='ks'))

相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
62 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
1月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
285 55
|
23天前
|
存储 缓存 监控
局域网屏幕监控系统中的Python数据结构与算法实现
局域网屏幕监控系统用于实时捕获和监控局域网内多台设备的屏幕内容。本文介绍了一种基于Python双端队列(Deque)实现的滑动窗口数据缓存机制,以处理连续的屏幕帧数据流。通过固定长度的窗口,高效增删数据,确保低延迟显示和存储。该算法适用于数据压缩、异常检测等场景,保证系统在高负载下稳定运行。 本文转载自:https://www.vipshare.com
117 66
|
2月前
|
搜索推荐 Python
利用Python内置函数实现的冒泡排序算法
在上述代码中,`bubble_sort` 函数接受一个列表 `arr` 作为输入。通过两层循环,外层循环控制排序的轮数,内层循环用于比较相邻的元素并进行交换。如果前一个元素大于后一个元素,就将它们交换位置。
147 67
|
2月前
|
存储 搜索推荐 Python
用 Python 实现快速排序算法。
快速排序的平均时间复杂度为$O(nlogn)$,空间复杂度为$O(logn)$。它在大多数情况下表现良好,但在某些特殊情况下可能会退化为最坏情况,时间复杂度为$O(n^2)$。你可以根据实际需求对代码进行调整和修改,或者尝试使用其他优化策略来提高快速排序的性能
139 61
|
2月前
|
算法 数据安全/隐私保护 开发者
马特赛特旋转算法:Python的随机模块背后的力量
马特赛特旋转算法是Python `random`模块的核心,由松本真和西村拓士于1997年提出。它基于线性反馈移位寄存器,具有超长周期和高维均匀性,适用于模拟、密码学等领域。Python中通过设置种子值初始化状态数组,经状态更新和输出提取生成随机数,代码简单高效。
130 63
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
188 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
20天前
|
算法 网络协议 Python
探秘Win11共享文件夹之Python网络通信算法实现
本文探讨了Win11共享文件夹背后的网络通信算法,重点介绍基于TCP的文件传输机制,并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享,通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求,接收文件请求并分块发送文件内容;客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程,帮助读者理解并优化文件共享系统。
|
25天前
|
存储 算法 Python
文件管理系统中基于 Python 语言的二叉树查找算法探秘
在数字化时代,文件管理系统至关重要。本文探讨了二叉树查找算法在文件管理中的应用,并通过Python代码展示了其实现过程。二叉树是一种非线性数据结构,每个节点最多有两个子节点。通过文件名的字典序构建和查找二叉树,能高效地管理和检索文件。相较于顺序查找,二叉树查找每次比较可排除一半子树,极大提升了查找效率,尤其适用于海量文件管理。Python代码示例包括定义节点类、插入和查找函数,展示了如何快速定位目标文件。二叉树查找算法为文件管理系统的优化提供了有效途径。
50 5
|
25天前
|
存储 缓存 算法
探索企业文件管理软件:Python中的哈希表算法应用
企业文件管理软件依赖哈希表实现高效的数据管理和安全保障。哈希表通过键值映射,提供平均O(1)时间复杂度的快速访问,适用于海量文件处理。在Python中,字典类型基于哈希表实现,可用于管理文件元数据、缓存机制、版本控制及快速搜索等功能,极大提升工作效率和数据安全性。
61 0

热门文章

最新文章