数字营销行业大数据平台云原生升级实战

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 加和科技CTO 王可攀:技术是为业务价值而服务

王可攀.jpeg

王可攀加和科技CTO


本文将基于加和科技大数据平台升级过程中面临的问题和挑战、如何调整数据平台架构以及调整后的变化,为大家介绍数字营销行业大数据平台云原生升级实战经验。主要分为以下三个部分。

  • 加和简介
  • 加和的大数据服务挑战
  • 加和大数据平台升级


一、加和简介

加和科技于2014年创立,2015年搭建自己的技术服务,整个的服务模式为品牌广告客户,现在也涉及到主要有营销需求的客户提供营销的技术解决方案。


(1)   加和服务模式

以下是加和科技对接的媒体方和数据方。

加1.png

加和服务模式是把所有的媒体流量形成一个管道,当客户需要在不同的媒体之间做联合的控频,比如说同一个用户在优酷上看到一个广告,在爱奇艺上又看到一次广告,客户希望用户只看到三次广告。加和科技可以做一个跨平台的管控,同时客户希望有第三方的挑选和监控,就和其他的服务商协作,为客户提供一个广告的服务。


(2)   加和数据规模

加和科技数据量级增长的非常迅速,最开始的时候流量可能还不如一个中小型的媒体,上个月峰值达到800亿的请求。数据的复杂度也比较高,每一个请求都带着相应的广告的信息,每一个请求里面有近百个相关的维度需要处理。每天日均触达的达到5亿+次,全年上线的活动5000+,服务100+品牌的客户。


加2.png

二、加和的大数据服务挑战

(1)   服务场景的挑战

随着体量的增大,遇到一些问题和痛点:

一是数据量级大,服务运算复杂。服务的量级很大,这个量级每天都要去实时,需要分析或者是查找。客户在一定的时间范围内做活动信息的归纳,或者是跨媒体的去重的处理。


二是客户需求多变,需求复杂度大。客户的需求也是多变的,服务的客户分析的数据的维度非常多,每一个媒体用户不同标签属性上去做拆分去重,并不是统一化的需求,所以需要在大数据的范围内对这些需求进行处理。


三是计算量起伏大,峰值难以预估。随着客户的需求而走,整个计算的量级起伏也会比较大。客户有一波紧急的投放,会导致很多的媒体的流量都包下来,导致在短期的流量峰值会非常高。如果客户这段时间没有下单,量级也会相应的有些下降,服务成本和能力之间需要一个弹性支持的。


四是服务保障要求高。从媒体到请求,把信息发给第三方或者是流量监控的平台,再回来,最终把决策好要给用户产生什么样的素材,整个过程在100毫秒之内完成,要考虑多次的网络延时和计算的延时。如果产生一些数据的错误,会对客户的服务造成很大的影响。


(2)   自建大数据架构

加和科技选择自建的服务平台,数量级没那么大的时候选择了一款商用数据库去做整体的数据的支持。加和科技的服务体系一直在阿里云上面,但是数据库选择了一个商用数据库。当时也是平衡人员成本和服务的性能的要求,在复杂的分析的体系之下,商用数据库的性能还是比自己搭建的集群要好很多,而且相应的服务器成本也会更低。


加3.png

当时的数据来源主要是从ECS获得的一些日志,对数据实时性要求不高,更多的是离线分析。所以一开始用的是把日志做压缩,然后定时汇总到的数据集群去做处理的方式。再利用Kafka收集合作方的相关数据的信息,整合到业务报表后给客户呈现。


历史数据是存在OSS 上面,另外一个自研的BI 是用于展示对应的复杂数据报表,结果支持一些自主自拖拽的分析。从成本考虑,简化了数据分析的部分,利用小时级别的这种离线数据,再加上Redis 的缓存数据,去做了在线统计的模块。


(3)   历史架构服务痛点

历史结构有很多痛点,随着业务增长、数据量增长,出现了越来越多的问题。

首先,是计算弹性差。数据量不大的情况下,商用数据群还是可以比较快的做一些扩缩容。负载越大越难扩展应对突发故障困难、增减资源耗时不可控整,就会对业务造成拖累。如果出现服务器发生故障,整体的业务就会产生很大的影响。


其次,是数据管理很复杂。历经多年后,形成了很多中间表,数据难以划分、调控复杂度高、业务之间依赖高、任务资源争抢,中间的逻辑关系很难梳理的。在计算中又产生一些资源消耗,就进一步加剧了对弹性的需求。


再次,是特定场景效率低。服务的场景经常用到大规模的数据交集,涉及对大量数据交集的查询。单一的数据引擎在某些场景下很快的,在一些特定场景下效率不高,因为把数据都放在同样的集群里面去,所以它的效率会受比较大的影响。


最后,是计算消耗难以预估。这个从业务角度考量,成本不可控、计算任务难以和业务打通,很难为客户提供一个标准化、可视化服务。


三、加和大数据平台升级

(1)   升级后架构

调整最重要的环节在整个计算引擎的部分,把数据搬迁到了MaxCompute的平台上面,用DataWorks去做数据的调度和管理。 MaxCompute的使用带来了大幅的灵活性提升。


使用云环境扩缩容是比较方便的,计算的资源和存储的资源都获得了保障。也可以把原来的数据表做更好的分区分表的管理,可以看清楚这些数据怎样用,在中间的关系是怎样的,可以做更好的业务流程的管理。


加4.png

在搬迁的时候,MaxCompute不支持这种开源的调度,后来是联合阿里云的一块开发,最终支持调用MaxCompute的任务的方式。变化比较大的是自研的BI2.0模块,之前的服务模块是自拖拽的一个产品,发现有的客户不会拖拽,这种方式也是难以接受的,现在改善成自动生成报表服务。这个服务目前看起来可以让客户大幅用起来,数据查询的数量会大幅的提升。


(2)   架构调整效果-数据方面

架构调整的效果,最显著的是数据方面。首先是日均用户数量有很大量的提升,从原来的每年的几百个实时的请求上升到几千个,一部分的耗时很高的任务通过MaxCompute也得到了解决。以前部分高耗时任务等待时间非常长,现在时间缩减5倍。以前整个资源的调整时间平均大概72小时左右,现在可能都不到半小时的时间,这是云带来的能力。


加5.png

(3)   云原生大数据平台对加和的价值总结

最后,做了架构调整之后带来的一些变化,从几个角度来说:

一是响应业务需求能力提升。业务需求服务能力大幅提升,单次服务成本降低。业务成本可预估,提升业务服务效率;


二是服务稳定性和韧性提升。大幅降低资源调整耗时和难度、特定计算场景的耗时大幅下降;


三是数据团队能力转型。一方面从业务运维转化为业务推动,另一方面从数据分析转向机器学习;


四是扩展新应用场景。流程自动化和任务管理自动化、技术栈和业务的服务的持续优化。

加6.png

总体来说,我们并没有用到很多复杂的开源技术,优化服务架构的时候,更多的考量是我们的业务弹性,和人员组成。作为技术决策者和技术从业者,更多关注技术供应链,依赖阿里云提供成熟的技术,我们的团队得以专注于解决业务问题,更多去灵活的组合市场上现有的技术,然后快速地支撑我业务的发展。这样专业化分工,专业的人做专业的事,让我们的团队可以更好地为客户服务。


更多关于大数据计算、云数据仓库技术交流,欢迎扫码查看咨询。


image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
231 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
5月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
6月前
|
Cloud Native 安全 大数据
云原生与大数据
【8月更文挑战第27天】云原生与大数据
88 5
|
2月前
|
SQL 存储 分布式计算
MaxCompute近实时数仓能力升级
本文介绍了阿里云自研的离线实时一体化数仓,重点涵盖MaxCompute和Hologres两大产品。首先阐述了两者在ETL处理、AP分析及Serverless场景中的核心定位与互补关系。接着详细描述了MaxCompute在近实时能力上的升级,包括Delta Table形态、增量计算与查询支持、MCQ 2.0的优化等关键技术,并展示了其性能提升的效果。最后展望了未来在秒级数据导入、多引擎融合及更高效资源利用方面的改进方向。
|
1月前
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
|
3月前
|
运维 Cloud Native 云计算
云原生之旅:Docker容器化实战
本文将带你走进云原生的世界,深入理解Docker技术如何改变应用部署与运维。我们将通过实际案例,展示如何利用Docker简化开发流程,提升应用的可移植性和伸缩性。文章不仅介绍基础概念,还提供操作指南和最佳实践,帮助你快速上手Docker,开启云原生的第一步。
|
4月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
319 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
3月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
3月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
4月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
72 3

相关产品

  • 云原生大数据计算服务 MaxCompute