基于评论、新闻的情感倾向分析作商品的价格预测

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
简介:

实验环境

 ●  操作系统:Windows、Linux
 ●  语言环境:Python、MATLAB、java
 ●  实验工具:NLTK、sklearn、MATLAB2015b、Pycharm

 ●  服务器: tomcat

用开源框架Scrapy分析Xpath路径抓取中关村报价网站

上述文件中product文件夹是定制好抓取电子产品价格的数据采集器,MySQL建立数据库见文件

应用scrapy爬虫框架,定制爬虫抓取中关村报价产品的价格数据并且存储于MySQL数据库中

1.其中的过程是分析网页的Xpath路径,根据要获取的数据的路径定位到价格数据(可以分析不同的网站数据抓取)

2.存储数据打MySQL数据库中,主要是方便操作和使用

scrapy startproject tutorial
4000204f5aca9bec0d5290c1187754e63cd66c87

爬虫名字可以随意设定,同时设定采集器在服务器上能够定时采集数据这里定制bat文件。 锁定域名范围为:zol.com分析URL中正则表达式如下:http://detail.zol.com.cn/cell_phone/index****.shtml

最后将采集到的数据存储到MySQL数据库中如下图:

c73899a1190fbfa33c9e6e89fb95ea2d7cf49561

如果是在Linux服务器上做该定时任务只需要按照需要编写crontab即可。

爬虫定制方法以及网页分析

这里为了处理抓取新闻数据时候需要处理动态页面的信息采用了beautifulsoup,通过调用相关接口处理JS页面。 为保证数据的全面性而选取了百度新闻,同样需要分析页面源码的Xpath路径,为了剔除网页的标签,需要同上的路径分析。 最后可以通过用户提供的关键词获取新闻数据,效果如下图所示:

afc7a12d17cd332b779def7cebcb0ee2b68fd5eb

获得的新闻数据如下:

d9bbe8d26e7dbb53961265c4be2f31e6f53a3234
文本分析

 ●  为了便于处理需要对文本做一个分句处理过程,方便对文本的情感倾向分析以及特征提取。
 ●  本系统是建立在可信文本的条件下做情感倾向因素分析,所以首先需要对文本做可信分类,故需要提取分析的特征:包括文本的词长度、品牌出现次数、分成句子总数、和标准描述相似度、正负面概率得分等特征详细见源码文件*feature文件夹内容
 ●  在分类过程中这里对比了9个分类方法:
 ●  svm.SVC(gamma=0.001, C=100.)
 ●  svm.SVR()
 ●  LogisticRegression(penalty='l2', tol=0.001)
 ●  tree.DecisionTreeClassifier()
 ●  GaussianNB()
 ●  BernoulliNB()
 ●  RandomForestClassifier(n_estimators=20, max_depth=None, min_samples_split=1, random_state=0)
 ●  GradientBoostingClassifier(n_estimators=20)
 ●  AdaBoostClassifier(tree.DecisionTreeClassifier(max_depth=1),algorithm="SAMME",n_estimators=200)

通过分析对比发现随机森林分类效果最好。

最终特征如下图所示:

a7b678173ce31ab8b1c071b907fa499c6eb8ef9f

再根据情感程度匹配来计算文本的情感倾向得分:在情感词典这里采用了知网基础情感词、和自己通过语料和搜索引擎得到的领域情感词(详细描过程见源码)最终得到该品牌下的情感倾向因素得分如下图:

23157dafed6db13037c70c49d8e5792a53e5fbe1

图中分别是积极消极得分和平均分以及方差。

基于情感因素预测模型

模型建立过程详细见论文描述,最后得到各个模型的实验系统如图所示:

e7fda85ed896af3230fdc20cf900c5072efdd63c

基于研究算法Android应用软件

基于应用上述研究的算法对电子产品的价格作出预测后,在Android系统开发应用软件增加研究的实际意义展示效果如下:

636197f71f5592ab47e0497990895695aa305349 531d55b21b77cd90190154c75ac87dc913f7e904

单个商品的预测趋势如下图所示:

d3b93ac54d4cd4a2d5f41df78f0d0a446ca42e65

最后提供部分本系统接口

 ●  语料填充
 ●  文档路径
 ●  定制主题
 ●  全自动采集数据
 ●  模型更改

 ●  应用软件更改


原文发布时间为:2018-09-20

本文来自云栖社区合作伙伴“大数据挖掘DT机器学习”,了解相关信息可以关注“大数据挖掘DT机器学习”。

相关实践学习
自建数据库迁移到云数据库
本场景将引导您将网站的自建数据库平滑迁移至云数据库RDS。通过使用RDS,您可以获得稳定、可靠和安全的企业级数据库服务,可以更加专注于发展核心业务,无需过多担心数据库的管理和维护。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
存储 安全 Linux
TiDB安装准备工作与基础环境搭建
【2月更文挑战第28天】TiDB安装前需满足硬件(足够CPU、内存、存储)和软件(Linux,推荐CentOS 7+)要求,确保网络稳定性。配置包括设置唯一主机名,关闭防火墙和SELinux,同步NTP,创建TiDB用户和目录。下载官方安装包并验证后,解压,配置环境变量,初始化集群,启动服务并验证运行状态。稳定的环境对发挥TiDB性能至关重要。
1196 1
|
存储 JSON 安全
如何使用 JSON Web Tokens 进行身份验证?
总的来说,JWT 是一种强大而灵活的身份验证方式,通过正确使用和管理,可以为应用提供可靠的身份验证机制,同时提高系统的可扩展性和安全性。在实际应用中,需要根据具体的需求和场景,合理设计和实施 JWT 身份验证方案。
444 63
|
人工智能 JavaScript 测试技术
云效+DeepSeek 打造高效代码评审的新途径
本文介绍如何在云效平台上利用DeepSeek等大模型实现AI智能代码评审。通过创建云效组织、获取API令牌、配置Flow自定义步骤、导入示例代码库及创建流水线,结合单元测试和代码扫描功能,实现自动化代码审查。此方案显著减少人工评审工作量,提升代码质量与开发效率,确保项目快速且安全地上线。
|
人工智能 Cloud Native 安全
AI云全面支撑大模型落地!一文看完2025企业用云十大趋势
AI云全面支撑大模型落地!一文看完2025企业用云十大趋势
1194 1
基于自抗扰控制器和线性误差反馈控制律(ADRC-LSEF)的控制系统simulink建模与仿真
本课题基于自抗扰控制器(ADRC)和线性误差反馈控制律(LSEF),构建了ADRC-LSEF控制系统,并在MATLAB2022a中进行Simulink建模与仿真。ADRC通过实时估计并补偿未知扰动,结合LSEF的快速误差响应,实现了对复杂系统的高效控制。该方法特别适用于非线性、时变或模型未知的系统,具备优异的动态响应和鲁棒性。仿真结果显示系统性能良好,验证了ADRC-LSEF的有效性。
|
机器学习/深度学习 数据可视化 搜索推荐
用Python进行社交媒体分析:挖掘用户行为和趋势
【4月更文挑战第12天】本文介绍了Python在社交媒体分析中的应用,包括数据处理、可视化、机器学习等方面的优势。基本流程涉及数据获取、预处理、探索、模型选择与训练、评估优化以及结果可视化。文中给出了用户行为分析、话题趋势分析和用户画像分析的Python代码示例,展示了Python在这一领域的实用性。通过学习和实践,读者可以掌握Python进行社交媒体分析的技能。
1473 4
|
数据可视化 数据挖掘
数据挖掘-二手车价格预测 Task02:数据分析
数据挖掘-二手车价格预测 Task02:数据分析
390 0
数据挖掘-二手车价格预测 Task02:数据分析
|
XML Android开发 数据格式
Android CheckBox 复选框(自定义复选框)
Android CheckBox 复选框(自定义复选框)
840 0
proteus常用元件图示和名称介绍
proteus常用元件图示和名称介绍
6148 0
proteus常用元件图示和名称介绍