开发者学堂课程【SaaS 模式云数据仓库实战:飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/760/detail/13341
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
十九、开放生态的数据平台
MaxCompute 拥有开放生态的服务,支持与众多服多J成,融入企业已有的IT环境,最大化降低数据链路集成工作,提升开发效率。
1. 一方服务接口
抛开一个独立的技术平台,一个技术平台要满足大数据应用场景离不开周边产品的配套。而MaxCompute也在持续建设开发的生态,包括提供了开发的一方服务接口,如:通过JDBC、SDK的服务去操作,同时还和开源的服务Spark,Kafka集成,由此可以很好的对接,最后还提供了MaxCompute迁移的工具MMA,能够很好的低成本迁移到MaxCompute上去。
l odpscmd (Command LineInterface)
l MaxCompute Studio(IDE)
l JDBC(SQL 92 Dialect)
l SDK(Java/Python/PHP)
l 开源Spark Connector
l 开源Kafka Connector
l MMA迁移工具
2. 阿里云服务集成
同时身为托管性的平台而言,能够最大化的降低企业在大数据上的分析链路集成工作,因而和阿里云上的众多服务都做了深度的产品集成,如MaxCompute开通后与PAI时一体化的平台,可以被Quick BI做快速的集成,同时和主流的消息中间站也能够做集成投递,不需要做过多开发,只需在界面配置,就可以将数据源给集成过来。
l Dataworks
l PAI
l Quick BI
l Datahub
l DTS
l 日志服务
l 阿里云Kafka
l 友盟云
3. 三方服务集成
还支持许多第三方服务集成,如Tableau(市面上广泛使用的BI工具)与MaxCompute是由官方集成的,最后MaxCompute通过Python SDK的方式也和Azkakan/Airflow此类开源的调度工具能很好集成。
l Tableau
l R
l Python Pandas
l DataX
l Azkakan/Airflow(通过Python SDK)
l 其他商业生态工具
4.完整的阿里云大数据产品解决方案,快速构建数据应用
之前篇章提到过,从生态的角度而言阿里云的飞天大数据提供了一套完整的大数据解决方案,通过数据的采集,数据实时离线一体化数仓计算,以及数据应用的展示有一套完整的大数据解决方案。而以MaxCompute作为大数据仓库的底座能够快速的和阿里云的多个产品集成以此满足各种个性化需求。
二十、企业级可治理的数据管理平台
上面内容多为技术层面的功能,而企业在使用到资深用户时构建发展数据平台时会遇到治理的问题。因为数据本身的发展并非线性关系配置,业务时平缓增长,而数据是指数级的增长,因而产生一个问题:用户构建的平台的业务价值打通后,平台的成本越来越高,甚至超过业务的增速,企业就需要治理的手段。而MaxCompute和DataStudio在阿里云内部天然的集成有着许多数据治理的最佳实践,包含统一的数据资产目录方面,数据安全,数据质量,智能监控和资源优化诊断能力,而许多都做了部分产品化输出。
1. 方案说明:
适用于互联网、金融、政府、传统企业等行业头部、拥有海量数据资产的客户
2. 方案优势︰
阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本
二十一、企业级可治理的数据管理平台-计算/存储资源智能优化
存储/计算资源优化、诊断与分析,存储指很多的数据被抽取到数据仓库中长期不被使用,这些数据我们需要发现它或有些数据没有作业去处理计算,某些作业有相同重复的计算,这些场景经常是我们在数据仓库中会遇到的问题,需要有一个自动化的手段去发现此类低效无用的数据和计算任务。通过数据优化点的发现,能够很好的帮助企业去进行数据治理的管理。
1.多领域优化建议
l 数据存储领域
l 数据计算领域
l 数据采集领域
2.围绕引擎采集第一手数据
l 生命周期/空表/长时间未访问
l 冲突任务/数据倾斜/暴力扫描
l 空表导入/持续一致导入/同源导入/网络优化
3. 多视角优化视图
l 个人视角
l 管理员全局视角
二十二、基于 MaxCompute 的解决方案及案例介绍
一个技术平台的仓库更多支持业务场景,在此简单介绍基于MaxCompute的典型解决方案以及案例。第一是大数据平台对传统数据的云化或现代化数仓的解决方案,开篇曾提过自建平台面临着许多挑战,同时也提到过云上的服务在很大程度上可以解决云上自建平台的痛点,因而常使用迁移上云的方案来解决,同时此方案也较为成熟。借助上云工具MMA,可以在线上的Hadoop平台生态中做迁移的评估,数据迁移和作业迁移转换然后将自建平台迁移至云上,而迁移至云上后,云上服务的优势便可以被企业所使用。
1.MaxCompute 能够解决自建数据平台的痛点问题
(1)自建数据平台面临的挑战
①建设成本高:
l 初始投资高-购买软硬件、构建专业团队
l 周期较长&风险高-从建设到投入使用的周期较长,以月为单位,业务风险高
②扩展性与弹性(匹配业务需求的能力)不足:
l 滞后业务需求-依赖容量规划、采购周期等条件,平台能力扩展往往滞后于业务实际发展的需要
l 规模容量限制-容易受到机房容量限制,扩容困难
l 受限的弹性能力-固定规模的资源池,难以满足突发业务需要的临时弹性需求
③资源利用率低︰
l 集群资源利用率低-业务天然地存在不同类型的峰谷变化,导致集牂按峰值扩容,显示资源使用率低
l 为存储扩容计算-由于存储与计算需求的不一致,往往需要为存储空间扩容集群,导致浪费
④运维维护成本高:
l 保障服务SLA的成本高–需要投入专家团队进行集群版本升级、根据管理需要进行二次开发和功能增强,运维管理的人力投入较高;
l 人员流失变化对系统彩响大-自建数据平台的长期发展、演进,对企业的核心技术人才依赖高;
(2)上云工具(MMA)
l 迁移评估
l 数据迁移
l 作业迁移
(3)MaxCompute云上服务
①极大降低了使用门槛
l 开箱即用,内置完整功能和生态配套
l 支持按作业付费(Pay as you use),支持以极低的费用进行业务
l 概念验证后投入生产
②近乎无限扩展
l 超大资源池,支持TB到EB规模数据仓库的扩展
l 无需容量规划,自适应处理不同业务规模,规模增长、性能不降级
l 计算和存储独立伸缩
③敏捷-加速应用交付
l 全托管、免运维-最小化在平台运维方面投入,团队可聚焦于数据应用开发和数据管理
l 面向业务的敏捷平台:可低成本、快速完成数据应用/数据产品的原型验证。业务规模增加后,系统自适应扩展,应用无需改动、调优
④精确匹配需求的极致弹性
l 按需伸缩∶根据每个作业的需求实时、精准分配资源,单作业最大可分配成上万Core计算资源,保障算力
l 应对高并发:自动应对业务峰谷变化的资源需求
⑤内建的企业级服务
l 服务级别的高可用设计,面向使用者承诺99.9% SLA
l 内建数据加密、脱敏、持续备份、审计日志功能
l 支持跨地域容灾
2.大数据上云解决方案
大数据搬站是云上生态体系的融合和升级,如为搬至云上,基于飞天大数据能够提供的一套较为完整的成熟可治理的一套云上大数据解决方案。
3.某母婴行业客户云上大数据仓库
以下为某母婴行业的一个头部案例其为在自建时存在许多痛点,包括集群水位过高,性能不足,缺乏治理手段,同坐IDC每年大数据的投入过高,希望能够降本提效,由此启动了云上迁移项目,将企业Hadoop 3PB数据迁移上云,同时MaxCompute本身具有技术上的特点,在存储上具有自研的压缩格式能将企业不同的开源格式保存为MaxCompute压缩格式,进行数据压缩,大大降低企业存储成本。最后基于MaxCompute和DataWorks这样一套解决方案后客户从业务的离线数据分析能力进一步获得了实时化的能力,提供了实时推荐的能力。
①客户简介
XXX成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,XXX很早就建立了自己的IDC集群,而且规模越来越大。
②客户需求
集群水位高,性能差,亟待大数据综合治理·IDC大数据每年投入成本高,希望降本提效
③客户价值
从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、
DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将XXX现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上
4. 智能实时数仓解决方案
常见的智能数仓的方案即在云上基于完整的阿里云解决方案,许多企业无论是新的云上创业公司或云原生的企业,都可以使用阿里云的全托管式解决方案,能够更加敏捷的构造一套面向电商,游戏行业的实时化解决方案。
①方案说明:
适用于电商、游戏、社交等互联网行业大规模数据实时查询场景
②方案优势∶
1)阿里云实时数仓全套链路,与离线数仓无缝打通。2)满足一套存储,两种计算(实时计算和离线计算)的高性价比组合产品组合:DataHub+实时计算Flink+交互式分析+MaxCompute+DataWorks+Quick BI / DataV
①数据采集-通过DataWorks(批量)、DataHub(实时)进行统一数据采集接入。
②基于Dataworks完成数据全链路研发,包括数据集成、数据开发&ETL、转换及KPI计算等开发,以及数据作业的调度、监控、告警等。Dataworks提供数据开发链路
的安全管控的能力。以及基于Dataworks的数据服务模块提供统一数据服务API能力
③实时数据按实际业务需求使用Fink中进行实时ETL(可选),结果入库交互式分析产品构建实时数据仓库、应用集市,并提供海量数据的实时交互查询和分析。交豆式分析提供实时离线联邦查询。历史离线数据存放于MaxCompute,实时分析数据存放于交互式分析
④基于阿里QuickBI进或第三方数据分析工具如Tableau行数据可视化,以及构建各业务板块数据服务门户应用
5. 某视频行业客户:新一代云原生数仓,离线实时一体化
以上是视频行业的案例,基于MaxCompute+Realtime Compute+Hologres来构建的云原生数据仓库,更多的基于数据平台去做用户管理、数据划项分析,同时通过实时视频推荐,来提升产品的转化和活跃。
某视频行业客户是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破8.9亿。
新一代云原生数据仓库
一套存储引擎、三种计算力量
MaxCompute+Realtime Compute+Hologres
离线计算 实时计算 交互式分析
①用户标签数据开发
客户通过 MaxCompute针对每天APP产生的客户基础属性效据、行为日志数据、内容数据等进行计算,每天离线更新用户标签的数
据,支持营销业务的使用
②用户画像实时洞察
客户基于MC离线计算好的用户标签,通过Hologres进行多标签、多维度的实时分析,了解用户属性标签与内容标签之间的关联性,洞察交叉销售机会,并通过人群圈选,
进行APP消息PUSH
③实时视频推荐
客户通过Flink + MaxCompute搭建个性化实时推荐系统,基于用户特征和实时行为特征,实时推荐个
性化的短视频内容
6.某视频行业客户-基于 MaxCompute 的大数据应用
最后一个案例也是基于MaxCompute的视频行业应用,同时其也构建了一套完整的平台。其选择MaxCompute的核心原因如下:
(1).为什么使用MaxCompute
①简单易用
MaxCompute是一个开箱即用,简单易用的平台
②性能强悍
同时MaxCompute本身的特性带来了极致的强悍性能,能够满足规模极大的企业需要
③完善生态
同时其基于阿里云上有一套完整的大数据生态
④弹性资源
最后由于弹性的资源,在云上做了许多的弹性资源能力,如:分时资源管理,按用量计费,一键扩容和多计算资源打通路由等能够最大化平衡成本与产品需要的能力。
(1)典型使用案例
基于平台可以构建分层的数据仓库,基于数据仓库去做反作弊、运营分析、包括一些推荐的场景
①典型案例-数据分层
②典型案例-计算优化
③典型案例-反作弊
④典型案例-存储优化