小打卡:快速部署大数据计算平台实践

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 小打卡目前已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。在庞大的用户量背后,MaxCompute产品的搭建显得尤为重要。

一、业务背景

小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因:
1、成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2、效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3、性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4、安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。

二、大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构:

image.png

面向小打卡的各项业务场景,所需的基本产品搭配:

1、用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2、数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3、线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4、推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS

实践case:

1、业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数

2、阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI
DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日,快速搭建大数据平台:
步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓
1.在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。

image.png

image.png

2.DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。

image.png

在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。
业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。

image.png

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库
阿里云的数据集成提供丰富的数据源支持:
文本存储(FTP/SFTP/OSS/多媒体文件等)
数据库(RDS/DRDS/MySQL/PostgreSQL等)
NoSQL(Memcache/Redis/MongoDB/HBase等)
大数据(MaxCompute/AnalyticDB/HDFS等)
MPP数据库(HybridDB for MySQL等)

image.png

继续在DataStudio中开发物理模型和ETL任务。

image.png

image.png

发布任务流程,并在运维中心中调度和监控

image.png

3.将数据接入Quick BI,交付业务部门使用。

目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。
但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8天前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
4月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
317 1
|
1月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
102 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
3月前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
3月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
449 3
【赵渝强老师】基于大数据组件的平台架构
|
3月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
4月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
188 1
|
4月前
|
SQL 分布式计算 大数据
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
103 2
|
1月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
235 92