基于评论、新闻的情感倾向分析作商品的价格预测

本文涉及的产品
云数据库 RDS SQL Server,独享型 2核4GB
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

实验环境

 ●  操作系统:Windows、Linux
 ●  语言环境:Python、MATLAB、java
 ●  实验工具:NLTK、sklearn、MATLAB2015b、Pycharm

 ●  服务器: tomcat

用开源框架Scrapy分析Xpath路径抓取中关村报价网站

上述文件中product文件夹是定制好抓取电子产品价格的数据采集器,MySQL建立数据库见文件

应用scrapy爬虫框架,定制爬虫抓取中关村报价产品的价格数据并且存储于MySQL数据库中

1.其中的过程是分析网页的Xpath路径,根据要获取的数据的路径定位到价格数据(可以分析不同的网站数据抓取)

2.存储数据打MySQL数据库中,主要是方便操作和使用

scrapy startproject tutorial
4000204f5aca9bec0d5290c1187754e63cd66c87

爬虫名字可以随意设定,同时设定采集器在服务器上能够定时采集数据这里定制bat文件。 锁定域名范围为:zol.com分析URL中正则表达式如下:http://detail.zol.com.cn/cell_phone/index****.shtml

最后将采集到的数据存储到MySQL数据库中如下图:

c73899a1190fbfa33c9e6e89fb95ea2d7cf49561

如果是在Linux服务器上做该定时任务只需要按照需要编写crontab即可。

爬虫定制方法以及网页分析

这里为了处理抓取新闻数据时候需要处理动态页面的信息采用了beautifulsoup,通过调用相关接口处理JS页面。 为保证数据的全面性而选取了百度新闻,同样需要分析页面源码的Xpath路径,为了剔除网页的标签,需要同上的路径分析。 最后可以通过用户提供的关键词获取新闻数据,效果如下图所示:

afc7a12d17cd332b779def7cebcb0ee2b68fd5eb

获得的新闻数据如下:

d9bbe8d26e7dbb53961265c4be2f31e6f53a3234
文本分析

 ●  为了便于处理需要对文本做一个分句处理过程,方便对文本的情感倾向分析以及特征提取。
 ●  本系统是建立在可信文本的条件下做情感倾向因素分析,所以首先需要对文本做可信分类,故需要提取分析的特征:包括文本的词长度、品牌出现次数、分成句子总数、和标准描述相似度、正负面概率得分等特征详细见源码文件*feature文件夹内容
 ●  在分类过程中这里对比了9个分类方法:
 ●  svm.SVC(gamma=0.001, C=100.)
 ●  svm.SVR()
 ●  LogisticRegression(penalty='l2', tol=0.001)
 ●  tree.DecisionTreeClassifier()
 ●  GaussianNB()
 ●  BernoulliNB()
 ●  RandomForestClassifier(n_estimators=20, max_depth=None, min_samples_split=1, random_state=0)
 ●  GradientBoostingClassifier(n_estimators=20)
 ●  AdaBoostClassifier(tree.DecisionTreeClassifier(max_depth=1),algorithm="SAMME",n_estimators=200)

通过分析对比发现随机森林分类效果最好。

最终特征如下图所示:

a7b678173ce31ab8b1c071b907fa499c6eb8ef9f

再根据情感程度匹配来计算文本的情感倾向得分:在情感词典这里采用了知网基础情感词、和自己通过语料和搜索引擎得到的领域情感词(详细描过程见源码)最终得到该品牌下的情感倾向因素得分如下图:

23157dafed6db13037c70c49d8e5792a53e5fbe1

图中分别是积极消极得分和平均分以及方差。

基于情感因素预测模型

模型建立过程详细见论文描述,最后得到各个模型的实验系统如图所示:

e7fda85ed896af3230fdc20cf900c5072efdd63c

基于研究算法Android应用软件

基于应用上述研究的算法对电子产品的价格作出预测后,在Android系统开发应用软件增加研究的实际意义展示效果如下:

636197f71f5592ab47e0497990895695aa305349 531d55b21b77cd90190154c75ac87dc913f7e904

单个商品的预测趋势如下图所示:

d3b93ac54d4cd4a2d5f41df78f0d0a446ca42e65

最后提供部分本系统接口

 ●  语料填充
 ●  文档路径
 ●  定制主题
 ●  全自动采集数据
 ●  模型更改

 ●  应用软件更改


原文发布时间为:2018-09-20

本文来自云栖社区合作伙伴“大数据挖掘DT机器学习”,了解相关信息可以关注“大数据挖掘DT机器学习”。

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
搜索推荐 前端开发 算法
协同过滤算法|电影推荐系统|基于用户偏好的电影推荐系统设计与开发
协同过滤算法|电影推荐系统|基于用户偏好的电影推荐系统设计与开发
|
7月前
|
数据采集 存储 搜索推荐
分析新闻评论数据并进行情绪识别
爬取新闻评论数据并进行情绪识别的目的是为了从网页中抓取用户对新闻事件或话题的评价内容,并从中识别和提取用户的情绪或态度,如积极、消极、中立等。爬取新闻评论数据并进行情绪识别有以下几个优势: 1)可以了解用户对新闻事件或话题的看法和感受,以及影响他们情绪的因素; 2)可以分析用户的情绪变化和趋势,以及与新闻事件或话题的相关性和影响力; 3)可以根据用户的情绪进行个性化的推荐或服务,如提供正能量的内容、提供帮助或建议等;
137 1
|
10月前
|
存储 弹性计算 固态存储
|
11月前
|
机器学习/深度学习 算法 数据挖掘
基于决策树模型的用户购物行为预测分析
本文通过分析电子商务平台的用户购物行为,构建了一个基于决策树模型的用户购物行为预测分析模型。该模型可以帮助企业预测用户的购物意愿、购物频率及购买金额等重要指标,为企业制定更有针对性的营销策略提供参考
657 0
|
机器学习/深度学习 自然语言处理 算法
朴素贝叶斯进行--垃圾邮件分类、新闻分类、个人广告获取区域倾向的解读
朴素贝叶斯进行--垃圾邮件分类、新闻分类、个人广告获取区域倾向的解读
137 0
朴素贝叶斯进行--垃圾邮件分类、新闻分类、个人广告获取区域倾向的解读
|
机器学习/深度学习 数据采集 数据可视化
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
614 0
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
|
机器学习/深度学习 供应链 算法
商品销量预测方法|学习笔记
快速学习商品销量预测方法
1587 0
商品销量预测方法|学习笔记
|
机器学习/深度学习 数据采集 算法
Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结
Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结
246 0
Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结
|
机器学习/深度学习 数据采集 自然语言处理
自然语言处理:网购商品评论情感判定
自然语言处理:网购商品评论情感判定
自然语言处理:网购商品评论情感判定
|
算法 搜索推荐
论文解读 | 数十亿商品中,长尾和新品怎么找到新主人?
在推荐系统的发展历程中,面临两个核心问题:用户的长尾覆盖度以及新商品的冷启动,在这两个维度下的模型扩展能力的瓶颈一直以来对广大推荐算法工程师都是不小的挑战。本文基于Graph Embedding的理论知识提出了创新框架,旨在提升商品推荐的多样性和发现性。
1139 0