【云栖号案例 | 互联网】小打卡:快速部署大数据计算平台实践

简介: 小打卡目前已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。在庞大的用户量背后,MaxCompute产品的搭建显得尤为重要。
+关注继续查看

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

案例背景

小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因:

1.成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2.效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3.性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4.安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。

大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构:

image

面向小打卡的各项业务场景,所需的基本产品搭配:

1.用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2.数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3.线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4.推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS

  • 实践case:

1.业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数
2.阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI

- DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

- MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

  • Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日,快速搭建大数据平台:

步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓

1)在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。

image

image

2)DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。

image

在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。

业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。

image

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库

阿里云的数据集成提供丰富的数据源支持:

  • 文本存储(FTP/SFTP/OSS/多媒体文件等)
  • 数据库(RDS/DRDS/MySQL/PostgreSQL等)
  • NoSQL(Memcache/Redis/MongoDB/HBase等)
  • 大数据(MaxCompute/AnalyticDB/HDFS等)
  • MPP数据库(HybridDB for MySQL等)

image

继续在DataStudio中开发物理模型和ETL任务。

image

image

发布任务流程,并在运维中心中调度和监控

image

3)将数据接入Quick BI,交付业务部门使用。

目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。

但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。

image

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
分布式计算 Java 大数据
大数据常用调度平台
大数据常用调度平台
7 0
|
22天前
|
存储 数据可视化 大数据
彻底搞定数据产品选型-报表平台、BI平台、大数据平台、数据中台一网打尽
彻底搞定数据产品选型-报表平台、BI平台、大数据平台、数据中台一网打尽
|
1月前
|
传感器 运维 安全
智慧工地平台源码 (PC端+APP端)项目平台、监管平台、数据平台
在设备管理方面,智慧工地可以实现设备的智能化管理和维护。通过物联网和数据分析技术,可以实时监测设备的运行状态和性能,如:塔机、升降机、高支模的运行参数进行实时监测,当检测数据超过预警值时,实时报警并发送云平台。提前发现潜在的故障和问题,并采取相应的维修和保养措施,减少设备故障造成的停工时间和成本损失。
|
3月前
|
存储 大数据
|
3月前
|
存储 监控 大数据
|
3月前
|
存储 监控 大数据
|
4月前
|
SQL 存储 缓存
「大数据系列」Ignite:基于内存分布式数据库和缓存和处理平台
「大数据系列」Ignite:基于内存分布式数据库和缓存和处理平台
210 0
|
7月前
|
大数据
《数据化精准营销——广推宝大数据推广平台 》电子版地址
\"数据化精准营销——广推宝大数据推广平台 \"
51 0
《数据化精准营销——广推宝大数据推广平台 》电子版地址
|
7月前
|
存储 SQL 弹性计算
阿里云EMR2.0平台:让大数据更简单
作为国内开源大数据领域的引领者,EMR2.0在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。
746 0
阿里云EMR2.0平台:让大数据更简单
|
7月前
|
消息中间件 存储 SQL
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
推荐文章
更多