热门
阿里云认证体系人才圈
文章 开发者小达人 2023-05-22 89浏览量
文章 开发者小达人 2023-05-22 93浏览量
文章 开发者小达人 2023-05-22 70浏览量
文章 开发者小达人 2023-05-22 181浏览量
文章 开发者小达人 2023-05-22 84浏览量
文章 开发者小达人 2023-05-22 128浏览量
1
回答
文章 阿里云认证助手 2022-12-27 927浏览量
文章 阿里云认证助手 2022-12-06 439浏览量
文章 阿里云认证助手 2022-11-29 386浏览量
文章 阿里云认证助手 2022-11-22 259浏览量
文章 阿里云认证助手 2022-11-08 992浏览量
文章 阿里云认证助手 2022-11-08 223浏览量
大宽表模型,单表多维分析。
以上内容摘自《阿里云认证的解析与实战-数据仓库ACP认证》电子书,点击https://developer.aliyun.com/ebook/download/7807 可下载完整版
是指显示功能区域中不同元素点击密度、触达率、停留分布等特征。
数据链路实时化依赖阿里云的DTS,将MySQL、SQL Server、Oracle 等数据实时传输到ADB 中,DTS 可以读取数据库的binlog,对源端无影响,也可以通过DMS、Dataworks 对数据进行抽取到数仓里,还可以将日志数据、MQ、流计算产生的数据,通过SLS 写入到ADB 数仓里。
• 传统数仓/大数据方案:目前还面临着数据清洗需要数小时,数据建模需要数天数据分析需要数小时,导致常规报表隔天输出,新运营需求数周才能满足。
• 而数据实时化是趋势,对数据实时化要求越来越高,传统数仓/大数据方案已无法满足需求。
1) 创建DTS 同步:源库类型、目标库AnalyticDB、同步链路规格。
2) 配置任务:源库实例、目标实例、授权白名单。
3) 同步对象设置:全量数据、增量数据、DDL 过滤、DML 设置。
4) 对象映射 :源库对象、目标对象、多表归并、字段映射。
5) 日志表设置:分区键、主键键。
6) 预检查并启动:检查出错、重新修改、启动暂停。
圈人分析、毫秒级响应
分钟级营销效果反馈
基于日志的实时行为分析
Greenplum
白天业务高峰资源保障、晚上ETL高峰的稳定性和降低整体计算资源成本。
包括下面两种:
适合交互式查询,对RT(响应时间)有较高要求查询Query SQL 不是特别复杂,资源充足。
多维分析
MOLAP、ROLAP和HOLAP。
AnalyticDB MySQL 版和PolarDB MySQL 版。
旨在为用户提供数据集成、加工、可视化和价值挖掘的一站式开发平台。提供任务编排、数据仓库两种开发模式,均可以实现周期调度,满足用户不同应用场景的数仓开发需求。
旨在帮助用户实现两个数据源之间的数据实时同步。
• R(Recency):最近一次消费时间
• F(Frequency):消费频率
• M(Monetary):消费金额
• 首先,需要进行归一化(数据中台里称作OneID),全渠道多端采集,可信归一沉淀。
• 然后构建标签体系预置标签库。
• 然后进入用户画像流程,包括人群圈选、人群洞察,通过预置人群包、自定义人群包,私域+公域标签、多维度洞察研究。
• 将洞察结果配合营销策略进行多通道触达,实时效果跟踪。
• 数据回流形成回环。
• 传统的解决方案使用单体数据库存储订单、库存、报表进行BI 的分析,由于BI分析会涉及数据量非常大、对响应要求比较高,导致DBA 会不断地进行SQL 优化、建索引,但效果非常有限。
• 所以在做解决方案时,需要把业务数据库和分析数据库进行解耦,避免复杂的BI 分析的SQL 影响到业务数据库。
• 其次利用分析数据库在OLAP 上快速分析的能力把链路实时化。
是指用来分析用户参与情况与活跃程度的模型。
用户在使用产品过程中,描述各个阶段中关键环节的用户转化和流失率情况。
分析用户在产品使用过程中的访问路径。
是指根据运营关键指标对用户特定事件进行分析。
是指在获得网站或APP 等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP 等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。
如图,
• 应用App 部署在ECS 服务器上,用户的行为日志存放在该服务器上,使用LogService(原称SLS)在ECS 上部署Logtail agent 实现日志自动采集。
• 由于日志比较大,Logtail 在自动投递时考虑到成本等因素,首先会投递到OSS上,然后通过AnalyticDB 对离线的数据进行清洗加工,如从ODS 层清洗到DWS层。
• 清洗完成后将数据回流ADB 里,这里存放ADS 层数据,便可以进行高并发低延迟分析、高度灵活、交互式分析、BI 的探索等操作。
• 基于AnalyticDB MySQL 准实时分析,精准推荐。
• 基于AnalyticDB (Spark)流计算近实时清洗加工。
• 基于DMS 实现一站式全链路数据管理与服务。
• 基于事件触发自动化推荐。
• 行为事件分析:根据运营关键指标对用户特定事件进行分析。
• 用户留存分析:用来分析用户参与情况与活跃程度的模型。
• 漏斗模型分析:用户在使用产品过程中,描述各个阶段中关键环节的用户转化和流失率情况。
• 行为路径分析:分析用户在产品使用过程中的访问路径。
• 行为热力分析:显示功能区域中不同元素点击密度、触达率、停留分布等特征。
• (OSS 数据投递)将OSS 日志数据“T+1”投递到AnalyticDB 弹性集群进行海量热数据分析。
• (OSS 数据分析)将OSS 日志数据进行清洗加工。
• 磁盘存储水位不均匀,个别Segment 节点磁盘使用过多,提前用满磁盘存储空间。
• 节点参与计算数据量不均匀,存在木桶效应。
两种:
• 用户控制台排查
• 通过SQL 排查
• 分布策略选择规则:
ü 小表(总行数低于1 万)优先选择复制表分布策略(DISTRIBUTED REPLACATED)。
ü 大表优先选择参与Join/GroupBy 计算的字段作为分布键Hash 分布。
ü 若没有数据分布均匀的字段作为分布键使用,采用随机分布策略(DISTRIBUTED RANDOMLY)。
• 用户控制台排查:
ü 控制台基础信息项,会展示实例最大存储水位与实例存储总水位,存储数据倾斜时,两个数值将会差异过大。
ü 控制台监控与报警项,计算节点监控处会展示所有计算节点的空间使用量,存储数据倾斜时,节点磁盘空间使用量会差异过大。
• 通过SQL 排查:
ü 通过控制台信息确定存在存储倾斜后,使用SQL 排查倾斜的表。
ü 查询结果根据数据倾斜程度排序,当tb_balance_rate 大于1.1 时,认为该表存在数据倾斜。
(日志采集投递)用户行为分析,圈选高价值用户,通过打点信息分析指导业务优化实现百毫秒RT响应。
(RDS-DTS)用户登录/注册实时监控,实时展现新增用户&在线用户信息。
数据倾斜太大。
会发生表不发生重分布、表中被删除的数据仍然保留和表中被删除的列仍然保留。
COPY、DELETE和ALTER TABLE
异地灾备、异构数据库读写分离和异地多活。
数据存储倾斜,表现形式为数据在多个Segment 节点上分布不均匀,存在如下影响:
阿里云智能认证体系针对不同产品类别、用户成长阶段、生态岗位,精心打造各项认证考试,已成为泛云计算领域行业人才技能标准。阿里云认证圈子作为泛云生态人才交流绿洲,将持续带来丰富多样的认证活动、行业资讯、学习交流机会,希望大家都能加入一起玩!诚邀您加入阿里云认证官方学习福利群:33715706。
阿里云认证官网: https://edu.aliyun.com/certification
阿里云开发者社区官网: https://developer.aliyun.com