包括3个模块:数据预处理、模型训练及保存、模型测试,下面分别给出各模块的功能介绍及相关代码。
数据集下载链接为https://www.aitechclub.com/data-detail? data_id=29,停用词典下载链接为http://www.datasoldier.net/archives/636。
1.数据整合
原始数据包含在两个文件夹中,每个文件夹各有2000条消极和2000条积极的评论,因此,需要先做评论数据整合,将两个评论放在.txt文档中。
2.文本清洗
进行文本特殊符号(如表情)的清理删除。
3.文本分词
将分词后的文本转化为以高维向量表示的方式,这里使用微信中文语料训练的开源模型。
模型训练及保存
通过训练集训练数据得出模型,使模型进行情感分类。这里,使用训练集和测试集来拟合并保存模型。
1.加载词向量表,并设置训练集和测试集
模型训练并保存
相关代码如下
模型测试
使用模型对已经爬取的评论集进行打分。
1.爬取评论
在携程酒店爬取指定酒店ID的评论集。
2酒店打分
将爬取的评论用模型训练时处理数据的方式进行同样的处理,相关代码如下:
3.界面设置
本部分输入指定名称,在数据库中搜索数据,调出酒店分数和排名。生成Django项目,包括hello.html、view.py、settings.py、urls.py。
1)创建Django项目
django - admin startproject HelloWorld
在HelloWorld目录下创建templates,并建立hello.html文件。本部分包括界面文件和处理提交数据,从数据库中搜索给出相关信息。
2)html布局文件
相关代码如下:
3)后台调用数据库
相关代码如下: