ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类-阿里云开发者社区

ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

2021-11-05 289

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

输出结果

数据集：https://blog.csdn.net/qq_41185868/article/details/88408004

核心代码

#1、读取数据并做一些基本的预处理(比如说把评论部分的html标签去掉等等)

def review_to_wordlist(review):

'''

把IMDB的评论转成词序列

'''

review_text = BeautifulSoup(review,"lxml").get_text() # 去掉HTML标签，拿到内容

review_text = re.sub("[^a-zA-Z]"," ", review_text) # 用正则表达式取出符合规范的部分

words = review_text.lower().split() # 小写化所有的词，并转成词list

return words # 返回words

# 使用pandas读入训练和测试csv文件

train = pd.read_csv('F:/File_Python/Resources/Kaggle Film critic emotion/labeledTrainData.tsv', header=0, delimiter="\t", quoting=3)

test = pd.read_csv('F:/File_Python/Resources/Kaggle Film critic emotion/testData.tsv', header=0, delimiter="\t", quoting=3 )

y_train = train['sentiment'] # 取出情感标签，positive/褒或者 negative/贬

train_data = [] # 将训练和测试数据都转成词list

for i in range(0,len(train['review'])):

train_data.append(" ".join(review_to_wordlist(train['review'][i])))

test_data = []

for i in range(0,len(test['review'])):

test_data.append(" ".join(review_to_wordlist(test['review'][i])))

print(train_data)

print(y_train)

#2、特征处理：从数据里面拿到有区分度的特征，采用TF-IDF向量方法

from sklearn.feature_extraction.text import TfidfVectorizer as TFIV

# 初始化TFIV对象，去停用词，加2元语言模型

tfv = TFIV(min_df=3, max_features=None, strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}', ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1, stop_words = 'english')

X_all = train_data + test_data # 合并训练和测试集以便进行TFIDF向量化操作

len_train = len(train_data)

tfv.fit(X_all)

X_all = tfv.transform(X_all)

X = X_all[:len_train] # 恢复成训练集和测试集部分

X_test = X_all[len_train:]

# 3、利用NB算法，多项式朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB as MNB

model_NB = MNB()

model_NB.fit(X, y_train) #特征数据直接灌进来

MNB(alpha=1.0, class_prior=None, fit_prior=True)

from sklearn.cross_validation import cross_val_score

import numpy as np

print ("多项式贝叶斯分类器20折交叉验证得分: ", np.mean(cross_val_score(model_NB, X, y_train, cv=20, scoring='roc_auc')))

#4、利用LoR算法

from sklearn.linear_model import LogisticRegression as LR

from sklearn.grid_search import GridSearchCV

# 设定grid search的参数

grid_values = {'C':[30]}

# 设定打分为roc_auc

model_LR = GridSearchCV(LR(penalty = 'L2', dual = True, random_state = 0), grid_values, scoring = 'roc_auc', cv = 20)

# 数据灌进来

model_LR.fit(X,y_train)

# 20折交叉验证，开始漫长的等待...

GridSearchCV(cv=20, estimator=LogisticRegression(C=1.0, class_weight=None, dual=True,

fit_intercept=True, intercept_scaling=1, penalty='L2', random_state=0, tol=0.0001),

fit_params={}, iid=True, loss_func=None, n_jobs=1,

param_grid={'C': [30]}, pre_dispatch='2*n_jobs', refit=True,

score_func=None, scoring='roc_auc', verbose=0)

#输出结果

print (model_LR.grid_scores_)

ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

输出结果

核心代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

输出结果

核心代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景