基于日志服务(SLS)实现电商数据加工与分析

2019-11-06 2163

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

日志服务 SLS，月写入数据量 50GB 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

简介： 基于日志服务(SLS)实现电商数据加工与分析本文要点（json函数、ip映射函数专题）如何使用阿里云日志服务-数据加工做清洗数据如何使用阿里云日志服务强大的SQL做数据分析如何配置数据仪表大盘日志数据样例本文中的日志数据，以某大型电商一段时间的成交量数据为背景来展开工作的。

基于日志服务(SLS)实现电商数据加工与分析

本文要点（json函数、ip映射函数专题）

如何使用阿里云日志服务-数据加工做清洗数据
如何使用阿里云日志服务强大的SQL做数据分析
如何配置数据仪表大盘

日志数据样例

本文中的日志数据，以某大型电商一段时间的成交量数据为背景来展开工作的。具体日志数据如下：

首先，从日志中可以看出每个用户购买的商品名称、商品价格、商品描述、商品分类以及用户的ip地址。此外，为了客户隐私本文中的隐去用户id。

需求

根据ip地址解析出用户的地理位置（省市国家信息）；
然后依据每个用户IP解析的位置信息，分析每个省市各类产品之间的销售额，并制定相应的营销战略。

使用数据加工进行数据清洗

加工流程

加工操作

1、点击搜索框右上第一个按钮“数据加工”进入加工页面

2、其次点击预览数据，做一些提前的配置

3、第一次点击的预览界面如下，其中在高级配置ak_id, ak_key主要是为了使用数据加工解析ip函数使用的（使用这种方式主要是安全，如果数据加工语法中没有使用到AK则可以不配置）具体AccessKeyId，AccessKey相关信息请参考访问秘钥配置和子账号授权。

4、接下来我们开始使用数据加工

e_set("geo",geo_parse(v("ip"), ip_db=res_oss_file(endpoint='http://oss-cn-hangzhou.aliyuncs.com',
                                                 ak_id=res_local("ak_id"),
                                                 ak_key=res_local("ak_key"),
                                                 bucket='log-etl-staging', file='ipipfree.ipdb',
                                                               format='binary')))
e_json("geo", depth=2)
e_drop_fields("geo")
e_if(e_search("province==中国"),e_drop())

语法详解

首先需要在OSS上存一份IP解析库文件（文中使用的是ipipfree库）
然后使用res_oss_file函数从OSS上拉取存入内存中
在使用geo_parse函数对ip字段进行处理，解析出省市国家信息。此函数返回的是一个json数据

此时，点击下预览效果如下：

使用e_json把geo字段的json数据展开，并且使用e_drop函数删除geo字段信息

从上图中可以看出解析出来的有脏数据即"province: 中国"这种日志信息，我在这里的处理是使用e_if,e_search和e_drop配合使用删除这些脏数据。

如上图所示，目前的数据基本上都是正常数据。接下来是对加工的数据进行加工配置，以下图中的右侧图示表示将加工的数据分发到一个shop的logstore中。

数据加工诊断

点击上图中提示按钮，可进入数据加工任务详情页面，在这里可以看加工出错日志、加工消费记录等重要信息。具体如下图：

保存数据加工之后，可能在自己目标的logstore中不能及时看到加工后的数据，是因为使用数据加工会有一个延时速率，具体信息参考数据加工仪表盘，创建告警参考状态监控与告警。

使用日志服务SQL语句进行数据分析

以下图是通过sql查询所展示数据仪表大盘：

SQL分析

注意：在使用sql分析的时候，对应的字段需要提前建立好索引。在shop这个logstore中，我们需要提前建立好category, city, country, province, good_price这些字段的索引（good_price建立索引的时候选择double类型，其他的都为text类型就可以）。
做分析的时候，首先我们需要知道我们需要统计什么信息，对比什么信息，得出什么样的结论等等。在这里我们的需求有以下即方面：
1、统计各个省之间的各个品类的销售额
2、统计单个品类各省之间的销售额
3、统计单个省下各个市之间的销售额
4、对全国销售额进行地图可视化

统计各省之间的各个品类的销售额

我们可以这样写SQL语句进行分析：* | SELECT province, category, sum(good_price) as totalCount GROUP BY province,category
这条语句表示的是选出每个省的每个品类的总价。
下图表示的是在查询框里输入以上sql分析语句之后进入统计图表，然后点击流图进行配置，province为X轴，totalCount为Y轴，category为聚合列。

通过上图分析可知总体情况，数码产品品类的销售额占所有销售品类的主要部分，其次是化妆品，最后是图书。
此外，通过词云统计，可以统计出山东，广东等省是销售额占比大省。词云具体配置为：

统计单个品类各省之间的销售额

以下以数码产品为例：

* | SELECT province, category, sum(good_price) as totalCount WHERE category='数码产品' GROUP BY province,category

由上图分析可知山东，广东省是数码产品消费大省，后续可以加大促销力度。

统计单个省下各个市之间的销售额

以下示例以浙江省为示例：

* | SELECT province, category,city, sum(good_price) as totalCount WHERE province='浙江' AND city!='null' GROUP BY province,category,city

从上图中可以分析出浙江省各个市之间的各个品类的销售额。

数据仪表大盘

点击以下图中的“添加到仪表盘”按钮

会跳出以下界面

配置完成之后，点击以下图中示意标记进入仪表大盘中心

其中的右上角的编辑，可以调整各个图的大小以及位置等

基于日志服务(SLS)实现电商数据加工与分析

基于日志服务(SLS)实现电商数据加工与分析

本文要点（json函数、ip映射函数专题）

日志数据样例

需求

使用数据加工进行数据清洗

加工流程

加工操作

语法详解

数据加工诊断

使用日志服务SQL语句进行数据分析

SQL分析

统计各省之间的各个品类的销售额

统计单个品类各省之间的销售额

统计单个省下各个市之间的销售额

数据仪表大盘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于日志服务(SLS)实现电商数据加工与分析

基于日志服务(SLS)实现电商数据加工与分析

本文要点（json函数、ip映射函数专题）

日志数据样例

需求

使用数据加工进行数据清洗

加工流程

加工操作

语法详解

数据加工诊断

使用日志服务SQL语句进行数据分析

SQL分析

统计各省之间的各个品类的销售额

统计单个品类各省之间的销售额

统计单个省下各个市之间的销售额

数据仪表大盘

热门文章

最新文章

相关课程

相关电子书

相关实验场景