本项目基于搭建大数据环境,通过将数据存放在HDFS上,从HDFS中获取数据,然后根据实际需求通过Spark或Spark SQL对数据进行读取分析,将分析结果存储到HBase表中,最终通过 ECharts数据可视化工具基于Python Web平台实现数据可视化。
订单号、成交金额、付款金额、订单时间、付款时间、退款
1、统计每个省的订单总额
2、统计每个省的退款总额
3、统计全国订单总额
4、统计前10名省订单总额
5、统计前10名省退款总额
6、统计每个省的订单数
7、统计每个省的退款数
8、统计每个省成效率
1. 首先启动Hadoop,Spark环境
2. 将天猫数据上传到hadoop上
3.读数据,分割,转DF对象,隐式导入,创表
4. 项目实现
4.1 统计每个省的订单总额,写入数据库。
4.1.1 构造每个省的订单总额URL,html,网站效果
4.2 统计每个省的退款总额,写入数据库
4.2.1 构造每个省的退款总额URL,html。网站效果
4.3 统计全国订单总额,写入数据库
4.3.1 网站效果: 统计全国订单总额
4.4 统计前10名省订单总额,写入数据库。
4.4.1 网站效果:统计前10名省订单总额