3.基于 MaxCompute 的大数据BI分析最佳实践（三）|学习笔记-阿里云开发者社区

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程：3.基于 MaxCompute 的大数据BI分析最佳实践】与课程紧密联系，让用户快速学习知识

课程地址：https://developer.aliyun.com/learning/course/81/detail/1251

3.基于 MaxCompute 的大数据BI分析最佳实践（三）

六、演示

1、最佳实践的文档，在官网的最佳实践频道里面，解决方案，最佳实践，可以搜搜maxcompute相关的最佳实践，就是基于maxcompute大数据BI分析，可以打开最佳实践，里面会有相应实操的步骤。

2、首先现在文档里面提供了相应的源码的脚本，这里面有下载地址https://code.aliyun.com/best-practice/106/repositorylarchive.zip?ref=master，下下来之后，里面有相应的文件，里面有 Java 的脚本，后面会介绍Java做udf的开发，就是在 maxcompute 里面做udf的开发，提供相应的脚本，包括的IP解析库，里面的SDK，还有

里面需要使用的文档相关的sql命令行，都会放到文件下面，可以下载脚本文件。

3、首先是电商网站的搭建，购买的云资源去部署业务系统，会购买vpc，把ecs部署在vpc环境内，同样去创建rds数据库，用来做业务的数据库，搭建的电商网站，具体步骤可以参考文档，已经把demo已经搭建好了。demo搭建完之后，会做基本的数据的模拟，比如创建用户的数据，在的rds数据库里面进到EMS的控制台里面，就可以直接生成模拟的数据。比如生成用户的数据，可以在数据库里面找到相应的表，自动的生成相应的模拟数据，在生产数据里面进行相应的随机数的调整。生成测试数据，后面主要需要的是三张表，一张是用用户表，就是刚刚生成的模拟数据，另外一张就是商品表，还有一张就是用户的行为表，用户的行为表是通过WebTracking，买点投递到就是服务里面，再同步到数据库的一张用户的行为表，这里面就构建了的数据，接下来去创建adb，adb就是最终要把数据汇总到adb里面做实时的数据的分析。ADB的整个使用也跟rds基本上是类似的，创建实例，创建数据库，创建用户名，资源的创建。

4、购买Adb之后，登陆数据库，可以在控制台上直接登录，登录之后，就可以在这里面去创建相应的数据库。

5、数据库创建完之后，创建三张表，可以一个一个添加，也可以通过sql令直接创建，这里面提供了相应的脚本之后，里面有详细的执行的sql，比如把 customer 表的创建，复制进来，首先是创建表的名字，名称，定义了相应的字段，包括组件，包括分区，执行，之后就可以生成 customer 表，最终会把原始的业务数据表同步到ADB里面，这里面首先需要创建这个表，product 里面也一样，可以参考提供的sql的创建，包括的日志 weblog 就就不再实际去执行了，最终创建的就是左侧列表的三张表。

6、让业务系统或者其它的应用能够去访问到ADB，需要去添加白名单，跟rDS是一样的，把vpc所在的网段添加到的adb的管理单里面，也就是让vpc内的所有的资源都能够去返回ADB，自己在业务生产时，可以做到最小的权限的控制，能够根据自己的实际的需要做相应的授权。

7、用户的行为的数据，是把它通过WebTracking买点上传到日志服务里面，oss这一部分，实际上就是简单的把买点的SDK上传到bucket里面。就是把WebTracking有sdk上传到bucket里面做引用，自己的业务系统里面，可以把sdk放到自己的业务的服务器上，同样也能够实现需要的买点的功能。

8、开通日志服务。首先创建 project，原则上是建议跟业务系统上部署到同一个环境，可以实现同一个区域内网的访问，现在的业务系统是在华南，所以把日志也放到华南，开通日志服务里面，需要详细的操作的日志或者重要的日志，这里面如果需要相应的服务可以开通起来，让它能够自己去收集，比如logstore日志，消费者的日志，都可以自动的进行收集，创建完之后，就是创建的project，创建logstore，这里已经之前已经创建了logstore，比如再去创建logstore，把WebTracking如果需要做前端的买点，就需要把功能打开。如果只是log采集，是不需要打开的，日志要做保存，可以定义日志保存的时间，根据自己的需求去定，比如要永久保存，可以把永久保存的功能给打开。像这种能够上传下来的，比如外网访问的客户端，买点可以通过哪个用户的前端访问，可以收集外网的IP，把外网的IP也勾上，确定创建。

9、可以直接导入数据，在日志服务里面有非常丰富的数据接入。比如单行的日志，其他一些相关的，这里面使用 webTrackingSDK 写入，进行一步一步的配置，默认配置即可，最终生成支持 WebTracking 功能的l ogstore。

10、配置完之后，需要把买点的脚本放到业务系统里面，前端的买点，也就是在html页面里面的卖点，在业务的生产系统上，前端的开发可以把脚本通过基本的定义，把脚本埋进去，包括SDK里面具体的实现，可以在js页面里面去实现。首先进入业务系统的管理控制台，就是业务系统的后台，登录。

11、实现的就是在前端页面把SDK集成，可以看一下脚本的实现，生产环境，这代码是由前端开发来实现的，首先是在在这里面首先引入的 webTrackinging 的js的sdk，因为之前是把它放到 ossbucket 上，所以这里面就指定 ossbucket 域名，存放的文件的地址，比如

放到自己的业务服务器上只要指定路径，loghubTrackin.js的文件所放的文件目录，在这里指定好即可。

12、接下来要实现的是 logger 的初始化，这里面需要指定的是 endpoint，project，还有 logstore，进行实例的初始化，再进行业务的实现。这里面简单的模拟了某一个用户去访问了某一个商品的ID，假如点击了某个商品，它会进入用户的ID，它点击的某个商品，配送到日志服务里面。把刚刚的脚本，js的SDK，endpoint，project，还有loghub进行实现，保存完之后可以登陆到前端页面也就是网站，这里面就简单的去模拟了用户的访问行为，自动上传日志，模拟用户去点击某一个商品，把日志发送到日志服务里面，现在这里面在自动的做日志的采集，在之前配置的weblog里面，可以看到日志是刚刚

生成的，这里面已经把日志采集上来了，就是某个用户的ID去访问了某个商品，简单的为日志就采集上来了。可以看到它在持续生产的过程，这就是通过webTrackinging 产品功能实现了用户的行为日志的上传。

13、接下来需要把数据包括的数据库，就是业务的数据，另外就是的日志数据，同步到 maxcompute 里面，这里面使用给 dataworks 进行集成开发，开通完服务之后，首先创建工作空间，选择同一个地域进行开发，做测试可以使用简单模式（单环境），如果在实际开发环境建议选择标准模式，将开发和生产系统进行隔离，这里使用简单模式进行模拟。引擎选择，因为现在是基于 maxcompute 的引擎进行了开发，所以把 maxcompute 的引擎勾上，这里面模拟的按量付费，也可以用包年包月。现在是默认集成的服务，如果有实时计算的需求，也可以把实时计算的引擎勾上，比如要以用 dataworks 对接的emr服务，进行大数据的开发，可以开通emr服务之后，就可以勾选emr引擎，如果要使用holo，也是一样的，包括ADBforpg，都是 dataworks 可以去对接的计算引擎，包括的机器学习pai平台，创建完之后就是现在所看到的项目空间。

14、第一步要做数据集成，就是把数据去集成到的ADB，还有 maxcompute 里面，首先进到数据集成里面，进到数据源，数据集成有两部分，一个是 reader，一个writer，对于现在要实现的业务有两条链路，一条是把rds的业务数据，比如customer 表直接同 ADB，

就是 readersrds，writersadb，另外要把日志同步到 maxcompute，也就是readersloghub，writers是ADB，这样就把上下游的数据源都添加到现在数据集成里的数据源里面，三个数据源，是rds，loghub，ADB，新增的数据源。可以看到生态是非常丰富，比如关系数据库，还有大数据的存储，像半结构化的存储，mysql，消息队列，可以直接进行集成的，这里面要做的是mysql，还有loghub，还有adb。首先看mysql，基本的定义，需要把mysql的实例ID，可以在rds控制台上查看。包括rds的主账号，也就是阿里云的uid，填写进去，数据库的名字，数据库的用户名和密码，再去测试连通性，在测试连通性之前，可能因为白名单没有添加，这里面还是不能去访问的rds数据库，文档可以添加dataworks的白名单到rds数据库。因为使用的是华南的项目空间，可以找到华南的白名单，添加到Rds的白名单里面即可。就是之前创建的实例业务数据，添加白名单，简单的把地址复制过来，设置名称，确认添加即可。测试连通性通过之后，确认完成，就把数据源添加进来了，再去添加的日志服务，添加数据源，选择 loghub，添加数据源的名称，或者 loghubfindpoint。点开，可以直接看到区域的 findpoint，输入loghubproject，还有ak，可以打开看里面的基本信息。因为使用的是深圳的findpoint，因为整个访问是在vpc环境中，建议用户使用vpc的内网环境，可以看到这里面使用的是内网findpoint，如果是跨区域，可以使用公网的findpoint，这里是项目的名字，测试通过之后，ADB也一样，添加adb的数据源，选择adb实例ID数据库，用户名和密码，数据源添加进来之后，进行数据的开发。点击数据开发，在数据开发里面，可以去自己做业务流程的规划，首先第一步可以去创建业务流程，输入业务流程的名字，比如bl_etl新建业务流程。

15、做数据的集成，选择离线同步的节点，就是div，把节点拖进来，做相应的任务，输入节点的名称，首先第一步要做的就是把rds的数据同步到ADB，这里面有两个表需要通过，第一个表就是 customer 表，第二个就是的 pruducet 表，创建完节点之后，可以进行配置，刚才已经把上下游的数据源都已经替换进去了，左边选择数据来源，rds的数据库，表的名字。需要同步哪张表，也可以多表的同步。

16、首先要去同步的 customer 的用户表，可以在这里面，也可以购买数据，看是不是成功的，可以看到它是可以成功读取出来的，就是数据去向里面，是要把它同步到ADB里面，这里面就去选择的ADB，因为创建的是ADBmysql3.0，右边是ADB的数据数据源，同样之前在ADB里面创建的表，可以看到相应的映射关系，把所有的字段进行一一的映射，完成之后可以去执行。

17、运行完之后就可以把rds数据同步到ADB里面，运行它是单次的执行，因为这里没涉及任何的过滤条件，单次的把全量数据同步到ADB里面，在真实的生产过程中，肯定很多数据需要增量的去同步，因为业务数据是不断写入的过程，这里面就可以做相应的过滤条件，比如根据时间错误，过滤条件填写的窗口，比如大于某一个时间，小于某个时间，定义起来，再把数据提交。

18、另外任务也是类似的，另外的任务就是把rds同步到adb，已经把数据采集weblog 里面了，把日志同步到 maxcompute 里面，这里面可以做增量的同步，同样的数据来源是 loghub，这是自己定义的。这里可以看到 logstore，选择原型的logstore，可以看到这里面有日记的开始时间和结束时间，也就是可以做增量的同步，可以指定日志读取的时间和结束的时间。进行了参数定义，再做数据去向，要把日志数据统一到的 maxcompute 里面，也就是 odps 里面，之前是没有创建这个表的，如果第一次执行，也可以一键生成表，之前已经创建好了 weblog 的表。这里面需要去读取日志的字段，这里如果第一

次创建，clientIP，receive，这两个字段是日志自带的字段，在 dataworks 里面是它是没办法自动读取出来的，这时就可以在这里面添加一行，比如看IP字段，添加进去即可。添加完之后，可以把它int关系，来源做连接。这样就可以把字段，字段一一对应起来。

19、它把它日志的数据能够投递到 maxcompute 里面，这里面还要做增量的评估，在这里可以看到的是开始结束的时间，因为这里面定义的是变量，所以在做配置时，需要把参数进行配置，start time 可以把它定义到当前调度的时间。业务逻辑是要去读取日志，比如要去读取现在5分钟之前的日志到当前的调度的时间的日志，每5分钟执行一次，里面设置的年月日时分秒代表当前的调度的时间，它的时间的格式设置，再去减掉，这是1000÷24小时再除以60就是分钟乘以5就是5分钟，也就是 start time，就是调度时间的前5分钟，这样一种表示，endtime就是当前调度的时间，使用了当前调度的时间，作为在maxcompute里面的分区，也就会形成每5分钟会在 maxcompute 里面形成分区。实例生成的方式可以设置发布后立即生效，真实的生效时间是在10分钟之后，它又不能够马上生效，调度周期可以设置，比如小时日周月，这里面模拟的是5分钟调度，可以做到最小的力度的调度，可以设置每5分钟调度一次，最小的力度是5分钟的调度时间，也就是会把当前的时间，前5分钟相关的行为数据都实时的同步到 maxcompute 里面，这时可以提交任务，提交之后去运维中心去生成相应的实例。

20、刚刚实现了数据增量的同步，刚刚已经把数据从日志服务里面同步maxcompute 里面，对数据进行处理的时候就可以使用的 maxcompute 里面的odps 对 SQL 对于数据进行处理，比如拖入maxcompute的sql节点，也就是现在创建的 maxcompute etl 的数据节点，使用uds的功能，因为 maxcompute 里面没办法把IP地址转化到的国家省市的信息。接下来看自定义的函数法是怎么去开发的。已经提供了的相应的源码，实现的过程。对于的用户来讲，可以使用的MaxCompute Studio 进行开发，它有ide的插件，基本的安安装可以参考文章去安装， MC Studio介绍 https://help.aliyun.com/document _detail/50889.html< IntelliJ IDE安装 https://help.aliyun.com/document_ detail/50891 .html?sp MC studio插件安装 m=a2c4g.11186623.6.934.6ed675c4KeGBvW-

21、新建项目可以直接选择 maxcompute Java 的项目，创建完项目之后，相应的poem里面的依赖，它能够自动添加，就不需要关心相应的依赖了。可以根据自己的业务的需求，去写的udf。基本的引用继承就是udf，里面有几个函数，比如set up实际上是在执行函数的初始化，这里面做的功能，就是把IP库加载进来，另外核心的函数就是的 evaluate 函数，可以输入参数再去返回，也就是比如用sql查找东西，这里面实现的就是IP，比如输入IP，流程回来的是国家省市拼接的字符串，实现这样一个功能。这些函数的定义，名称都是固定的，参数是可以自己去定义的，做自己的实现。实现完之后，使用 MaxCompute Studio 做开发也非常的方便，它能够直接把代码包括资源，sql都可以一键去部署到项目里面的。这里实现的就是把IP地址进行转化，IP地址转化到地域的功能。

22、进行部署，在项目项目里面，首先可以去添加项目的连接，这里面可以使用accessid 和 key 进行连接，Add project from dataworks 是内部使用的。可以添加相应的信息，project 的名字，endpoint 是公网访问的地址，内部的，选用apl的地址，就生成了。

23、之前已经添加过了，对接进来的就是在之前在 dataworks 里面创建的项目空间，可以看到之前创建的 weblog 表，因为之前把自定义函数也创建过了，就可以看到自定义函数，还有相应的资源，都是可以看的到的。

24、刚刚开发的函数里面，可以看到它有相应的资源，因为这里面是有IP库，怎么样去把IP库上传到项目里，可以点击 maxcompute，添加资源，可以查到资源的文件，选择ip库的文件，确定，进行上传。这是资源的上传。

25、把需要开发的udf能够一键的部署到项目。这里面开发了自定义的函数之后，可以点击需要的java文件，因为安装了插件，所以直接点击右键把函数直接部署到的项目里面，可以点击，点击完之后可以选择项目需要的，因为ip.dat已经上传了，这里面可以识别出来，这里面需要注意的是，因为项目它关联的相关资源 Extra resources，它必须得选择之后，跟jar包一起进行关联，所以在部署时，如果有额外的文件，需要跟java进行关联的，一定要选择，选择完之后可以去进行部署，比如部署的函数的名字 getaddr，可以自定义的，最终就是会通过自定义的函数的名字去执行需要的内容。可以测试，进行部署。在部署的过程中，它实际上干了这两件事情，一件事情就是把它自动执行的mail的打包。另外事情就是把打包的文件上传到的项目空间，这里面可以看到已经部署成功了，部署成功之后可以直接通过在的ide里面进行开发，比如去创建 maxcompute sql，包括可能交互查询，都是可以的。

26、创建 maxcompute sql 的脚本，已经把的自定义的函数就是 getaddr，定义的函数的名字，可以用 select 加函数，因为刚刚定义 string字段，IP，可以输入一个IP做测试，可以执行这个sql，做简单的测试，看部署的函数是不是已经能够成功的运行，用真实值可以测到IP地址，执行会有相应的日志，会告诉计费的情况，简单的确认即可，好。

27、在控制台上部署完之后，getaddr 函数是可用的，通过原始表里面就是FROM magento_ offline_ xy2020. weblog，weblog 里面有IP的字段，把IP的字段给解析出来，进行拆分之后给到的country，city，province三个字段，插到结果表里面。 split_ part(substrigetaddr(ip),2),",",1, 1) as country, split_ part ( substr(getaddr(ip),2),",",2, 2) as province, split part(substr getaddr(ip),2),",",3, 3) as city,

28、结果表也是分区表，这里面有个定义，但实际上就是调度的时间，就是系统的时间。以当前调度的时间作为分区，把5分钟的数据写到分区里面，去实现对数据进行转换，比如把IP转换成国家省市，再写到最后的表里面，刚刚测试的是杭州的IP，能够解析到中国、浙江、杭州，拼出来的是这样一个字段。[中国，浙江，杭州，]

29、刚刚已经把用户的表包括用户的行为做完etl之后放到ADB了，可以直接去用quick bi 对接ADB，把数据进行展示。接下来对接ADb，在ADB里面，创建数据源就是ADB的数据，进到 quick bi，先添加数据源，这里面可以看到有云上的各类相关的数据库，也可以有自建的数据库，进行数据源的对接，本地使用的是adb3.0，添加数据源，自动识别账号下面的ADB，数据库账号密码，创建连接完之后，可以读取ADB里面，刚刚同步过的 customer 表，还有行为表，在同步完之后，接下来要做的就是把数据源，在ADB里在 quick bi里面展示的是数据集，所以把相应的数据源，再去创建对应的数据集，比如以 weblog 日志行为基础的数据集，可以直接在这里面通过 web log 这一张表去创建数据集，点击就可以创建数据集就是weblog数据集。进到 weblog 数据集之后，只有相应的的行为数据，要做业务的分析，还需要去关联的用户的表，还有商品的表，但是在quick bi里面能够非常简单的完全的可视化的去实现表的join操作，完全都不需要写sql，完全是可视化的操作。已经导入了表，通过编辑表，原始导入的用户的行为表，也就是到DS前面的字段是用户的行为的表，就用户id，client id。可以做把其它的表进行 point 的操作，因为这里面已经做了关联，把表去添加，如果没有关联，会有加号的按钮，就执行point的操作，需要关联的是产品的表，通过item ID和 product 表，entity id进行关联，在sql里面就是 point 的操作，point 之后两边相等的操作，这里面还可以看到关联的关系，完全可视化的操作，日志上面的行为数据通过item字段和product，entity 字段进行关联，添加确定。这里就是把所有需要的分析字段用可视化的方式join到一张大表里面进行最终报表的展示，这些字段添加进来以后，首先它会放到度量的参数里面，可以根据最终的一个分析场景看，看这些字段是去做维度的还是去做度量的，如果不是做度量使用的，可以直接把它转化为维度，点击之后就会成为维度的字段。是根据业务的需求进行相应的转化，可以看到的大表全部出来，所有数据都能够做预览，再根据业务分析，还可以自定义做维度，还有度量的字段，比如要做pv的分析，可以去自定义度量，输入名字和表达式，可以通过sql的字段，可以打开添加完的看一下，写表达式，count item_id就是用户在访问时，每一次访问时会有字段的记录，count 就能够得到Pv的信息，比如要做uv可以新建一个字段，以用户的uid的 distinct 做，就可以得到每一个用户的UV的字段，可以自定义添加度量的值，也可以添加维度，这里面添加的维度是原始表里面记录的用户的年龄，但是要做的是对年龄进行分层，创建维度，增加维度需要的表达式，可以根据自己业务去做定义，进行年龄的分层转化，把所有的维度和度量定义完之后。

30、接下来可以做报表的展示，这里面去定义仪表盘，可以去新建仪表盘，比如要做地域分布做饼图，可以把饼图点击出来，这里面需要选择数据集，就是之前创建的是 weblog 的数据集

31、如果要做其它字段的分析，省的分布，国家的分布，或者用城市地图做展示都可以。比如年龄的分层，都是类似的，用Pv做度量，用年龄分层维度做分布，可以看年龄层次，分布的情况，包括看哪一类的用户可能最喜欢哪些商品，做简单的分析，能够非常快速的去构建bi分析的报表，可以看到quick bi里面没有完全是拖拉图形化的操作来来实现的，也可以通过这里面可以看到具体的sql实现。

32、包括可以通过具体sql时间，到ADB里面去查数据，做比较，看到数据真实的情况，这样就可以自报表系统里面去实现业务的分析，可以去发布，做预览，也可以分享给需要的人，比如所有人都可以看，还可以去授权给用户组，用户，可以授权时间等等，这里面也可以简单的看一下授权，进到空间里面做权限的管理，比如会有组织的管理，现在是管理员，可以去添加项目的成员，可以添加主账号或者是子账号，设置相应的权限，可以实现对于项目的管理权限的控制。

33、总结：首先做最佳实践，有自己的业务系统，业务系统是在数据是放在rds数据库里面的，日志投递到日志服务里面，把用户表，用户产品表通过 dataworks 的数据集成功能，集成到adb里面，用户的行为数据是通过 Web Tracking 数据买点的能力同步到日志服务里，日志服务再同步到 maxcompute 里面做etl，etl使用了自定义的udf，把ip转化为地域，形成地域的分析，把所有的数据同步到adb里面对接quick bi，quick bi 能对接各种可视化的数据源，包括所有表join的操作，通过可视化的操作形成需要的一个业务报表进行发布。

3.基于 MaxCompute 的大数据BI分析最佳实践（三）|学习笔记

3.基于 MaxCompute 的大数据BI分析最佳实践（三）

六、演示

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

3.基于 MaxCompute 的大数据BI分析最佳实践（三）|学习笔记

3.基于 MaxCompute 的大数据BI分析最佳实践（三）

六、演示

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景