3.基于 MaxCompute 的大数据BI分析最佳实践(三)|学习笔记

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 快速学习3.基于 MaxCompute 的大数据BI分析最佳实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:3.基于 MaxCompute 的大数据BI分析最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1251


3.基于 MaxCompute 的大数据BI分析最佳实践(三)

六、演示

1、最佳实践的文档,在官网的最佳实践频道里面,解决方案,最佳实践,可以搜搜maxcompute相关的最佳实践,就是基于maxcompute大数据BI分析,可以打开最佳实践,里面会有相应实操的步骤。

2、首先现在文档里面提供了相应的源码的脚本,这里面有下载地址https://code.aliyun.com/best-practice/106/repositorylarchive.zip?ref=master,下下来之后,里面有相应的文件,里面有 Java 的脚本,后面会介绍Java做udf的开发,就是在 maxcompute 里面做udf的开发,提供相应的脚本,包括的IP解析库,里面的SDK,还有

里面需要使用的文档相关的sql命令行,都会放到文件下面,可以下载脚本文件。

3、首先是电商网站的搭建,购买的云资源去部署业务系统,会购买vpc,把ecs部署在vpc环境内,同样去创建rds数据库,用来做业务的数据库,搭建的电商网站,具体步骤可以参考文档,已经把demo已经搭建好了。demo搭建完之后,会做基本的数据的模拟,比如创建用户的数据,在的rds数据库里面进到EMS的控制台里面,就可以直接生成模拟的数据。比如生成用户的数据,可以在数据库里面找到相应的表,自动的生成相应的模拟数据,在生产数据里面进行相应的随机数的调整。生成测试数据,后面主要需要的是三张表,一张是用用户表,就是刚刚生成的模拟数据,另外一张就是商品表,还有一张就是用户的行为表,用户的行为表是通过WebTracking,买点投递到就是服务里面,再同步到数据库的一张用户的行为表,这里面就构建了的数据,接下来去创建adb,adb就是最终要把数据汇总到adb里面做实时的数据的分析。ADB的整个使用也跟rds基本上是类似的,创建实例,创建数据库,创建用户名,资源的创建。

4、购买Adb之后,登陆数据库,可以在控制台上直接登录,登录之后,就可以在这里面去创建相应的数据库。

1.png5、数据库创建完之后,创建三张表,可以一个一个添加,也可以通过sql令直接创建,这里面提供了相应的脚本之后,里面有详细的执行的sql,比如把 customer 表的创建,复制进来,首先是创建表的名字,名称,定义了相应的字段,包括组件,包括分区,执行,之后就可以生成 customer 表,最终会把原始的业务数据表同步到ADB里面,这里面首先需要创建这个表,product 里面也一样,可以参考提供的sql的创建,包括的日志 weblog 就就不再实际去执行了,最终创建的就是左侧列表的三张表。

2.png

6、让业务系统或者其它的应用能够去访问到ADB,需要去添加白名单,跟rDS是一样的,把vpc所在的网段添加到的adb的管理单里面,也就是让vpc内的所有的资源都能够去返回ADB,自己在业务生产时,可以做到最小的权限的控制,能够根据自己的实际的需要做相应的授权。

7、用户的行为的数据,是把它通过WebTracking买点上传到日志服务里面,oss这一部分,实际上就是简单的把买点的SDK上传到bucket里面。就是把WebTracking有sdk上传到bucket里面做引用,自己的业务系统里面,可以把sdk放到自己的业务的服务器上,同样也能够实现需要的买点的功能。

8开通日志服务。首先创建 project,原则上是建议跟业务系统上部署到同一个环境,可以实现同一个区域内网的访问,现在的业务系统是在华南,所以把日志也放到华南,开通日志服务里面,需要详细的操作的日志或者重要的日志,这里面如果需要相应的服务可以开通起来,让它能够自己去收集,比如logstore日志,消费者的日志,都可以自动的进行收集,创建完之后,就是创建的project,创建logstore,这里已经之前已经创建了logstore,比如再去创建logstore,把WebTracking如果需要做前端的买点,就需要把功能打开。如果只是log采集,是不需要打开的,日志要做保存,可以定义日志保存的时间,根据自己的需求去定,比如要永久保存,可以把永久保存的功能给打开。像这种能够上传下来的,比如外网访问的客户端,买点可以通过哪个用户的前端访问,可以收集外网的IP,把外网的IP也勾上,确定创建。

9、可以直接导入数据,在日志服务里面有非常丰富的数据接入。比如单行的日志,其他一些相关的,这里面使用 webTrackingSDK 写入,进行一步一步的配置,默认配置即可,最终生成支持 WebTracking 功能的l ogstore。

10、配置完之后,需要把买点的脚本放到业务系统里面,前端的买点,也就是在html页面里面的卖点,在业务的生产系统上,前端的开发可以把脚本通过基本的定义,把脚本埋进去,包括SDK里面具体的实现,可以在js页面里面去实现。首先进入业务系统的管理控制台,就是业务系统的后台,登录。

11、实现的就是在前端页面把SDK集成,可以看一下脚本的实现,生产环境,这代码是由前端开发来实现的,首先是在在这里面首先引入的 webTrackinging 的js的sdk,因为之前是把它放到 ossbucket 上,所以这里面就指定 ossbucket 域名,存放的文件的地址,比如

放到自己的业务服务器上只要指定路径,loghubTrackin.js的文件所放的文件目录,在这里指定好即可。

12、接下来要实现的是 logger 的初始化,这里面需要指定的是 endpoint,project,还有 logstore,进行实例的初始化,再进行业务的实现。这里面简单的模拟了某一个用户去访问了某一个商品的ID,假如点击了某个商品,它会进入用户的ID,它点击的某个商品,配送到日志服务里面。把刚刚的脚本,js的SDK,endpoint,project,还有loghub进行实现,保存完之后可以登陆到前端页面也就是网站,这里面就简单的去模拟了用户的访问行为,自动上传日志,模拟用户去点击某一个商品,把日志发送到日志服务里面,现在这里面在自动的做日志的采集,在之前配置的weblog里面,可以看到日志是刚刚

生成的,这里面已经把日志采集上来了,就是某个用户的ID去访问了某个商品,简单的为日志就采集上来了。可以看到它在持续生产的过程,这就是通过webTrackinging 产品功能实现了用户的行为日志的上传。

13、接下来需要把数据包括的数据库,就是业务的数据,另外就是的日志数据,同步到 maxcompute 里面,这里面使用给 dataworks 进行集成开发,开通完服务之后,首先创建工作空间,选择同一个地域进行开发,做测试可以使用简单模式(单环境),如果在实际开发环境建议选择标准模式,将开发和生产系统进行隔离,这里使用简单模式进行模拟。引擎选择,因为现在是基于 maxcompute 的引擎进行了开发,所以把 maxcompute 的引擎勾上,这里面模拟的按量付费,也可以用包年包月。现在是默认集成的服务,如果有实时计算的需求,也可以把实时计算的引擎勾上,比如要以用 dataworks 对接的emr服务,进行大数据的开发,可以开通emr服务之后,就可以勾选emr引擎,如果要使用holo,也是一样的,包括ADBforpg,都是 dataworks 可以去对接的计算引擎,包括的机器学习pai平台,创建完之后就是现在所看到的项目空间。

14、第一步要做数据集成,就是把数据去集成到的ADB,还有 maxcompute 里面,首先进到数据集成里面,进到数据源,数据集成有两部分,一个是 reader,一个writer,对于现在要实现的业务有两条链路,一条是把rds的业务数据,比如customer 表直接同 ADB,

就是 readersrds,writersadb,另外要把日志同步到 maxcompute,也就是readersloghub,writers是ADB,这样就把上下游的数据源都添加到现在数据集成里的数据源里面,三个数据源,是rds,loghub,ADB,新增的数据源。可以看到生态是非常丰富,比如关系数据库,还有大数据的存储,像半结构化的存储,mysql,消息队列,可以直接进行集成的,这里面要做的是mysql,还有loghub,还有adb。首先看mysql,基本的定义,需要把mysql的实例ID,可以在rds控制台上查看。包括rds的主账号,也就是阿里云的uid,填写进去,数据库的名字,数据库的用户名和密码,再去测试连通性,在测试连通性之前,可能因为白名单没有添加,这里面还是不能去访问的rds数据库,文档可以添加dataworks的白名单到rds数据库。因为使用的是华南的项目空间,可以找到华南的白名单,添加到Rds的白名单里面即可。就是之前创建的实例业务数据,添加白名单,简单的把地址复制过来,设置名称,确认添加即可。测试连通性通过之后,确认完成,就把数据源添加进来了,再去添加的日志服务,添加数据源,选择 loghub,添加数据源的名称,或者 loghubfindpoint。点开,可以直接看到区域的 findpoint,输入loghubproject,还有ak,可以打开看里面的基本信息。因为使用的是深圳的findpoint,因为整个访问是在vpc环境中,建议用户使用vpc的内网环境,可以看到这里面使用的是内网findpoint,如果是跨区域,可以使用公网的findpoint,这里是项目的名字,测试通过之后,ADB也一样,添加adb的数据源,选择adb实例ID数据库,用户名和密码,数据源添加进来之后,进行数据的开发。点击数据开发,在数据开发里面,可以去自己做业务流程的规划,首先第一步可以去创建业务流程,输入业务流程的名字,比如bl_etl新建业务流程。

3.png

15、做数据的集成,选择离线同步的节点,就是div,把节点拖进来,做相应的任务,输入节点的名称,首先第一步要做的就是把rds的数据同步到ADB,这里面有两个表需要通过,第一个表就是 customer 表,第二个就是的 pruducet 表,创建完节点之后,可以进行配置,刚才已经把上下游的数据源都已经替换进去了,左边选择数据来源,rds的数据库,表的名字。需要同步哪张表,也可以多表的同步。

4.png16、首先要去同步的 customer 的用户表,可以在这里面,也可以购买数据,看是不是成功的,可以看到它是可以成功读取出来的,就是数据去向里面,是要把它同步到ADB里面,这里面就去选择的ADB,因为创建的是ADBmysql3.0,右边是ADB的数据数据源,同样之前在ADB里面创建的表,可以看到相应的映射关系,把所有的字段进行一一的映射,完成之后可以去执行。

5.png17、运行完之后就可以把rds数据同步到ADB里面,运行它是单次的执行,因为这里没涉及任何的过滤条件,单次的把全量数据同步到ADB里面,在真实的生产过程中,肯定很多数据需要增量的去同步,因为业务数据是不断写入的过程,这里面就可以做相应的过滤条件,比如根据时间错误,过滤条件填写的窗口,比如大于某一个时间,小于某个时间,定义起来,再把数据提交。

18、另外任务也是类似的,另外的任务就是把rds同步到adb,已经把数据采集weblog 里面了,把日志同步到 maxcompute 里面,这里面可以做增量的同步,同样的数据来源是 loghub,这是自己定义的。这里可以看到 logstore,选择原型的logstore,可以看到这里面有日记的开始时间和结束时间,也就是可以做增量的同步,可以指定日志读取的时间和结束的时间。进行了参数定义,再做数据去向,要把日志数据统一到的 maxcompute 里面,也就是 odps 里面,之前是没有创建这个表的,如果第一次执行,也可以一键生成表,之前已经创建好了 weblog 的表。这里面需要去读取日志的字段,这里如果第一

次创建,clientIP,receive,这两个字段是日志自带的字段,在 dataworks 里面是它是没办法自动读取出来的,这时就可以在这里面添加一行,比如看IP字段,添加进去即可。添加完之后,可以把它int关系,来源做连接。这样就可以把字段,字段一一对应起来。

6.png19、它把它日志的数据能够投递到 maxcompute 里面,这里面还要做增量的评估,在这里可以看到的是开始结束的时间,因为这里面定义的是变量,所以在做配置时,需要把参数进行配置,start time 可以把它定义到当前调度的时间。业务逻辑是要去读取日志,比如要去读取现在5分钟之前的日志到当前的调度的时间的日志,每5分钟执行一次,里面设置的年月日时分秒代表当前的调度的时间,它的时间的格式设置,再去减掉,这是1000÷24小时再除以60就是分钟乘以5就是5分钟,也就是 start time,就是调度时间的前5分钟,这样一种表示,endtime就是当前调度的时间,使用了当前调度的时间,作为在maxcompute里面的分区,也就会形成每5分钟会在 maxcompute 里面形成分区。实例生成的方式可以设置发布后立即生效,真实的生效时间是在10分钟之后,它又不能够马上生效,调度周期可以设置,比如小时日周月,这里面模拟的是5分钟调度,可以做到最小的力度的调度,可以设置每5分钟调度一次,最小的力度是5分钟的调度时间,也就是会把当前的时间,前5分钟相关的行为数据都实时的同步到 maxcompute 里面,这时可以提交任务,提交之后去运维中心去生成相应的实例。

20、刚刚实现了数据增量的同步,刚刚已经把数据从日志服务里面同步maxcompute 里面,对数据进行处理的时候就可以使用的 maxcompute 里面的odps 对 SQL 对于数据进行处理,比如拖入maxcompute的sql节点,也就是现在创建的 maxcompute etl 的数据节点,使用uds的功能,因为 maxcompute 里面没办法把IP地址转化到的国家省市的信息。接下来看自定义的函数法是怎么去开发的。已经提供了的相应的源码,实现的过程。对于的用户来讲,可以使用的MaxCompute Studio 进行开发,它有ide的插件,基本的安安装可以参考文章去安装, MC Studio介绍 https://help.aliyun.com/document _detail/50889.html<  IntelliJ IDE安装 https://help.aliyun.com/document_ detail/50891 .html?sp  MC studio插件安装 m=a2c4g.11186623.6.934.6ed675c4KeGBvW-  

21、新建项目可以直接选择 maxcompute Java 的项目,创建完项目之后,相应的poem里面的依赖,它能够自动添加,就不需要关心相应的依赖了。可以根据自己的业务的需求,去写的udf。基本的引用继承就是udf,里面有几个函数,比如set up实际上是在执行函数的初始化,这里面做的功能,就是把IP库加载进来,另外核心的函数就是的 evaluate 函数,可以输入参数再去返回,也就是比如用sql查找东西,这里面实现的就是IP,比如输入IP,流程回来的是国家省市拼接的字符串,实现这样一个功能。这些函数的定义,名称都是固定的,参数是可以自己去定义的,做自己的实现。实现完之后,使用 MaxCompute Studio 做开发也非常的方便,它能够直接把代码包括资源,sql都可以一键去部署到项目里面的。这里实现的就是把IP地址进行转化,IP地址转化到地域的功能。

22、进行部署,在项目项目里面,首先可以去添加项目的连接,这里面可以使用accessid 和 key 进行连接,Add project from dataworks 是内部使用的。可以添加相应的信息,project 的名字,endpoint 是公网访问的地址,内部的,选用apl的地址,就生成了。 

7.png23、之前已经添加过了,对接进来的就是在之前在 dataworks 里面创建的项目空间,可以看到之前创建的 weblog 表,因为之前把自定义函数也创建过了,就可以看到自定义函数,还有相应的资源,都是可以看的到的。

8.png24、刚刚开发的函数里面,可以看到它有相应的资源,因为这里面是有IP库,怎么样去把IP库上传到项目里,可以点击 maxcompute,添加资源,可以查到资源的文件,选择ip库的文件,确定,进行上传。这是资源的上传。

9.png25、把需要开发的udf能够一键的部署到项目。这里面开发了自定义的函数之后,可以点击需要的java文件,因为安装了插件,所以直接点击右键把函数直接部署到的项目里面,可以点击,点击完之后可以选择项目需要的,因为ip.dat已经上传了,这里面可以识别出来,这里面需要注意的是,因为项目它关联的相关资源 Extra resources,它必须得选择之后,跟jar包一起进行关联,所以在部署时,如果1-0.png有额外的文件,需要跟java进行关联的,一定要选择,选择完之后可以去进行部署,比如部署的函数的名字 getaddr,可以自定义的,最终就是会通过自定义的函数的名字去执行需要的内容。可以测试,进行部署。在部署的过程中,它实际上干了这两件事情,一件事情就是把它自动执行的mail的打包。另外事情就是把打包的文件上传到的项目空间,这里面可以看到已经部署成功了,部署成功之后可以直接通过在的ide里面进行开发,比如去创建 maxcompute sql,包括可能交互查询,都是可以的。

26、创建 maxcompute sql 的脚本,已经把的自定义的函数就是 getaddr,定义的函数的名字,可以用 select 加函数,因为刚刚定义 string字段,IP,可以输入一个IP做测试,可以执行这个sql,做简单的测试,看部署的函数是不是已经能够成功的运行,用真实值可以测到IP地址,执行会有相应的日志,会告诉计费的情况,简单的确认即可,好。

27、在控制台上部署完之后,getaddr 函数是可用的,通过原始表里面就是FROM magento_ offline_ xy2020. weblog,weblog 里面有IP的字段,把IP的字段给解析出来,进行拆分之后给到的country,city,province三个字段,插到结果表里面。 split_ part(substrigetaddr(ip),2),",",1, 1) as country, split_ part ( substr(getaddr(ip),2),",",2, 2) as province, split part(substr getaddr(ip),2),",",3, 3) as city,

28、结果表也是分区表,这里面有个定义,但实际上就是调度的时间,就是系统的时间。以当前调度的时间作为分区,把5分钟的数据写到分区里面,去实现对数据进行转换,比如把IP转换成国家省市,再写到最后的表里面,刚刚测试的是杭州的IP,能够解析到中国、浙江、杭州,拼出来的是这样一个字段。[中国,浙江,杭州,] 11.png

29、刚刚已经把用户的表包括用户的行为做完etl之后放到ADB了,可以直接去用quick bi 对接ADB,把数据进行展示。接下来对接ADb,在ADB里面,创建数据源就是ADB的数据,进到 quick bi,先添加数据源,这里面可以看到有云上的各类相关的数据库,也可以有自建的数据库,进行数据源的对接,本地使用的是adb3.0,添加数据源,自动识别账号下面的ADB,数据库账号密码,创建连接完之后,可以读取ADB里面,刚刚同步过的 customer 表,还有行为表,在同步完之后,接下来要做的就是把数据源,在ADB里在 quick bi里面展示的是数据集,所以把相应的数据源,再去创建对应的数据集,比如以 weblog 日志行为基础的数据集,可以直接在这里面通过 web log 这一张表去创建数据集,点击就可以创建数据集就是weblog数据集。进到 weblog 数据集之后,只有相应的的行为数据,要做业务的分析,还需要去关联的用户的表,还有商品的表,但是在quick bi里面能够非常简单的完全的可视化的去实现表的join操作,完全都不需要写sql,完全是可视化的操作。已经导入了表,通过编辑表,原始导入的用户的行为表,也就是到DS前面的字段是用户的行为的表,就用户id,client id。可以做把其它的表进行 point 的操作,因为这里面已经做了关联,把表去添加,如果没有关联,会有加号的按钮,就执行point的操作,需要关联的是产品的表,通过item ID和 product 表,entity id进行关联,在sql里面就是 point 的操作,point 之后两边相等的操作,这里面还可以看到关联的关系,完全可视化的操作,日志上面的行为数据通过item字段和product,entity 字段进行关联,添加确定。这里就是把所有需要的分析字段用可视化的方式join到一张大表里面进行最终报表的展示,这些字段添加进来以后,首先它会放到度量的参数里面,可以根据最终的一个分析场景看,看这些字段是去做维度的还是去做度量的,如果不是做度量使用的,可以直接把它转化为维度,点击之后就会成为维度的字段。是根据业务的需求进行相应的转化,可以看到的大表全部出来,所有数据都能够做预览,再根据业务分析,还可以自定义做维度,还有度量的字段,比如要做pv的分析,可以去自定义度量,输入名字和表达式,可以通过sql的字段,可以打开添加完的看一下,写表达式,count item_id就是用户在访问时,每一次访问时会有字段的记录,count 就能够得到Pv的信息,比如要做uv可以新建一个字段,以用户的uid的 distinct 做,就可以得到每一个用户的UV的字段,可以自定义添加度量的值,也可以添加维度,这里面添加的维度是原始表里面记录的用户的年龄,但是要做的是对年龄进行分层,创建维度,增加维度需要的表达式,可以根据自己业务去做定义,进行年龄的分层转化,把所有的维度和度量定义完之后。

30、接下来可以做报表的展示,这里面去定义仪表盘,可以去新建仪表盘,比如要做地域分布做饼图,可以把饼图点击出来,这里面需要选择数据集,就是之前创建的是 weblog 的数据集

12.png31、如果要做其它字段的分析,省的分布,国家的分布,或者用城市地图做展示都可以。比如年龄的分层,都是类似的,用Pv做度量,用年龄分层维度做分布,可以看年龄层次,分布的情况,包括看哪一类的用户可能最喜欢哪些商品,做简单的分析,能够非常快速的去构建bi分析的报表,可以看到quick bi里面没有完全是拖拉图形化的操作来来实现的,也可以通过这里面可以看到具体的sql实现。

13.png32、包括可以通过具体sql时间,到ADB里面去查数据,做比较,看到数据真实的情况,这样就可以自报表系统里面去实现业务的分析,可以去发布,做预览,也可以分享给需要的人,比如所有人都可以看,还可以去授权给用户组,用户,可以授权时间等等,这里面也可以简单的看一下授权,进到空间里面做权限的管理,比如会有组织的管理,现在是管理员,可以去添加项目的成员,可以添加主账号或者是子账号,设置相应的权限,可以实现对于项目的管理权限的控制。

14.png33、总结:首先做最佳实践,有自己的业务系统,业务系统是在数据是放在rds数据库里面的,日志投递到日志服务里面,把用户表,用户产品表通过 dataworks 的数据集成功能,集成到adb里面,用户的行为数据是通过 Web Tracking 数据买点的能力同步到日志服务里,日志服务再同步到 maxcompute 里面做etl,etl使用了自定义的udf,把ip转化为地域,形成地域的分析,把所有的数据同步到adb里面对接quick bi,quick bi 能对接各种可视化的数据源,包括所有表join的操作,通过可视化的操作形成需要的一个业务报表进行发布。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
1月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
105 2
|
3天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
43 15
|
5天前
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。
|
9天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
8天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
45 4
|
27天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
66 4
|
28天前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
34 4
|
29天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
191 5
|
5天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
47 0
|
1月前
|
机器学习/深度学习 算法 数据挖掘
如何利用 BI 工具分析客户流失原因?
如何利用 BI 工具分析客户流失原因?
55 10

热门文章

最新文章