客户简介
厦门美柚股份有限公司成立于2013年11月19日,最初以女性经期管理工具App切入市场,逐步构建起覆盖女性全生命周期的“工具+社区+电商”商业闭环。其主营业务包括为女性用户提供经期、备孕、孕期及育儿等健康管理服务,并依托庞大的用户基础,为广告主和电商商家提供精准的数字营销与电商服务。
客户行业
移动互联网中的大健康行业,具体聚焦于女性生活服务与数字健康领域。
客户业务场景
实时业务报表、OLAP分析。实时画像标签,要求端到端5分钟延时数据可见性。
客户痛点及面临的挑战
广告和 女性健康业务有实时用户画像标签的需求,要求端到端5分钟延时数据可见性。而客户之前以友商云上Spark为核心建设了大数据平台,数据加工以离线为主,湖格式采用的是hudi。时效性一般为天级别,部分为小时级,极少量实时场景采用Flink+kafka,存在lamda架构带来的各类问题。因此现有hudi数据湖无法满足日益增长的实时业务诉求,希望采用阿里云Paimon数据湖技术,建设近实时湖仓架构,提升数据新鲜度,提升部分业务场景例如广告监控的时效性。同时提升实时链路稳定性,降低业务使用成本。
除此之外,还有以下痛点:
- 数据开发:现有Flink开发缺少udf函数管理功能;现有hudi表的元数据缺少表参数、快照等信息的维护,开发维护不方便。
- 任务运维:现有Flink任务缺少AI诊断功能,缺少必要的监控指标,无法进行算子粒度配置资源。
- 数据湖能力:当前使用hudi数据湖,针对已有湖表,修改元数据,必须停读停写。Compaction资源无法灵活控制,执行时间也不稳定。
- 灵活弹性资源:当前引擎无法按量计费,缺乏计算资源灵活弹性伸缩的能力。
客户核心需求
功能性需求
非功能性需求
阿里云解决方案
使用的产品:
- DLF:统一湖仓数据和元数据管理DLF(paimon),全托管,免运维。
- Flink VVP:统一流式数据加工Flink,高性能计算引擎,全链路可观测。
- Serverless Spark:离线数据读写Serverless Spark ,按需计算、资源灵活弹性。
方案架构图:
方案要点:
- 大数据架构升级:使用阿里云商业化Paimon数据湖仓平台DLF,阿里云实时引擎Flink 和离线引擎Serverless Spark。支持单表多任务并发写入,支持元数据实时变更、部分列更新,解决hudi天然架构问题。
- 统一数据湖仓:使用全托管DLF-Paimon数据湖,统一数据存储,真正实现数据one copy;避免数据割裂,保证数据一致性。除此之外, 阿里云DLF还提供统一的数据和元数据管理;统一的权限管理;自动存储优化,包括但不限于小文件合并,过期快照清理,分区整理等优化策略。
- 全链路实时开发调试,提升数据新鲜度:阿里云Flink+DLF Paimon数据实时写入分钟可见。Flink 提供极致性能和一站式可视化的开发调试体验;完善的运维管理和监控告警功能;同城高可用架构,全链路自动容错能力。
- 离线引擎无缝读写:Serverless Spark 除了提供完善的针对DLF的读写功能外,在性能调优方面做了特殊的优化,让DLF真正做到引擎高效平权使用。
- 资源优化:阿里云DLF产品提供全托管的存储优化,包括小文件合并等,compaction资源从flink任务重剥离出来,并支持计算资源自动优化,既减少了任务开发运维负担,也提升了实时任务的写入性能;可节省至少30%的计算资源开销,降低使用成本。
- 开发提效:该方案支持全链路开发、调试、智能诊断、智能调优、监控告警,保证实时任务稳定运行,可观测。尤其是DLF完善的元数据管理、Serverless spark灵活的资源弹性、Flink丰富的任务诊断工具,相比原有开发效率有30%提升。
解决方案带来的核心价值
- 实时任务开发效率提升30%:
- 阿里云Flink任务启动停止耗时明显优于华为云CS
- 阿里云Flink具备完善的AI智能诊断,监控指标告警。
- 阿里云Flink支持UDF函数管理
- 阿里云Flink支持细粒度的资源配置优化
- 实时计算CU消耗降低33.3% :
- 实测客户女性健康业务,实时画像标签加工;结合阿里云DLF存储优化,智能compaction的能力,整体计算资源消耗由原来的656CU降到了492CU。
- 端到端数据可见延时降低100%+ :
- 选取逻辑加工最复杂的链路进行实测,针对最终画像标签表,华为hudi仅compaction就要20分钟以上,而阿里云paimon,端到端数据可见稳定保证在10分钟以内可见
DLF产品的核心价值
- 管理和优化:
- 湖表管理和优化
- 统一元数据,引擎平权访问
- 存储数据冷热分层
- 企业级安全:
- 细粒度权限管控、列级权限、多引擎复用统一权限
- 数据跨主账号共享
- 访问日志、审计日志等
- 低成本:
- 高效湖表优化降低计算成本
- IO吞吐优化降低IO成本
- 智能存储优化降低存储成本和Paimon上手成本
- 多模态:
- 文本,图像,视频,音频,多模态数据
- 支持Table视图和File视图