数加平台如何通过Serverless 架构实现普惠大数据

简介: Serverless 架构旨在将应用开发者从底层基础设施的运维中解放出来,更加专注于业务价值的实现上,这种思想对于大数据应用尤其适用,数据科学家更需要投入到数据价值的探索和挖掘上。本文讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,真正的实现普惠大数据。

 阿里云大数据 Serverless 理念

Serverless是一种架构理念,指的是以服务的形式来提供计算能力而不是以服务器形式,让开发者在构建应用的过程中不用过多考虑基础设施的问题。大数据业务本来就是最典型的计算业务,从计算的场景上来说,涵盖了离线批量计算、实时流计算、在线实时计算等,在很多情况下还需要把这些计算能力组合起来才能满足需求。所以Serverless 的架构天生就能很好的适用于大数据应用的场景,能把数据科学家从底层服务器层的运维管理等解放出来,让数据科学家专注在数据价值的探索挖掘上。

当前大数据云服务商里面只有Google 跟阿里云可以给用户提供完整的大数据Serverless 服务。Google 和阿里巴巴本身都是真正的大数据公司,对大数据的应用代表了行业领先的水平,今天在大数据云服务的提供上都一致的选择Serverless 的架构,也能很好的代表Serverless 架构在大数据应用领域的先进性。

以阿里云最重要的大数据产品MaxCompute 为例,无论是计算还是存储能力都是以服务的形式对外提供的,是典型的Serverless 服务。事实上,阿里云从一开始就坚持要把计算能力做成像水电煤一样的公共服务,而不是卖服务器给客户,这跟当下流行的Serverless 架构理念是一致的。这个理念在数加平台得到了很好的体现,数加平台能工一站式提供完整的大数据能力,离线,在线处理,大规模机器学习等,但没有一个服务以服务器形式提供的。

在更高层面的抽象,阿里云大数据平台今天已经可以提供很多业务场景化的计算服务,比如推荐引擎,规则引擎,以及各种人工智能的服务,甚至可以把数据和计算融合起来提供服务,典型的场景如下:

  •   数据分析服务化:按需组合使用各类Serverless 的服务,将多种数据源集成,清洗转换,关联分析,并以可视化的方式展现数据的洞察。过程中不用关心任何的物理架构,也不用关心各种工具的集成。
  •  数据服务化:指将已有的数据通过Serverless的方式(如API化)提供给使用者,常见的有:气象数据获取,根据地理位置获取对应位置的地点信息,图像识别(指能识别出特定的图片信息),特征新闻抓取服务等。
  • 算法服务化:主要是将输入的数据根据特定的算法进行提炼和运算,然后将结果输出,如人脸特征值提取,基因计算,图像渲染等。开发者无需考虑计算资源,只需将计算代码托管到大数据平台或者通过API接口调用大数据计算服务,由服务商提供计算资源的调度,监控和维护工作,能极大的降低运维工作量,同时具有更好的资源弹性伸缩能力。

 

阿里云大数据Serverless 实践

大数据应用相比流程性的应用有以下特点,

  • 流程长,从采集,存储,清洗,关联,到分析挖掘,直到变成数据服务
  • 逻辑复杂,大数据的价值就是要关联非常多的维度来分析
  • 不确定性强,数据的应用很多都是探索性质的
  •  技术体系复杂,不存在一个通用的引擎可以解决所有大数据的场景,离线处理,流式处理,在线分析都需要使用不同的引擎来支持

这些特点使得Serverless 的架构对大数据应用尤为重要,如果数据科学家陷入到这么复杂的底层构建和运维的细节,效率会变得非常低,甚至会导致很多的想法无法落地。

 

数加平台从用户视角来看,输入的是数据,输出的是智慧的服务。数加平台从底层将整个数据应用的链条全部打通,并提供了一系列的Serverless 服务,从数据采集,存储,各种处理,到最终变成数据服务。用户需要做的是开发、配置业务相关的处理逻辑、业务规则和算法等,把所有精力关注在数据价值的实现上,而不用关心底层技术和运维层面的架构,也不用关心系统资源管理等。

d2a4ba9d4ce44fe983ff8d9b240f5852fb591fb9


 

案例1:智慧水务

整体架构如下图:

1d9d5af7a8fc6090db7a6ddcd771051c43636817


利用IoT 套件采集设备数据,通过简单的配置即可将数据实时对接到大数据平台的DataHub.驱动以下典型的计算场景,

1)        在流计算中自定义SQL 对这些数据做实时的汇总统计,比如流量的统计

2)        在规则引擎中配置业务规则,通过这些规则对数据进行实时分析,判断设备的状态

3)        在规则引擎中配置异常检测的算法对设备状态进行预测,或者利用时间序列算法对管网运行状态进行预测,底层会应用到Maxcompute 对历史数据进行分析,产出的模型对接到StreamCompute,进而对新产生的数据进行实时预测

这个案例里面,利用到了大量的大数据的能力,离线存储和计算,流式计算,机器学习模型训练,数据可视化等等,但对使用者来说,需要做的是流计算SQL 的开发,业务规则的配置,以及偏业务的算法参数配置。而不用去管底层的平台要如何搭建,不同引擎之间的数据如何流转,以及系统的扩展性,稳定性,更不用关心要准备多少的物理资源。

 

案例2:智能服务机器人

将跟机器人交互的语音数据实时上传到大数据平台,驱动语音识别引擎对交互的内容进行识别,自然语言处理,构建知识库,最终形成一个问答系统。随着数据的积累,问答系统会变得越来越智能。

在这个案例里面,用户只需要将语音数据接入,输出的就是一个智能问答系统,完全不用关心底层的实现,而这个实现是非常复杂的,有能力的用户都需要花很大的成本才能搭建起来。

 

案例3:参考小红唇 https://yq.aliyun.com/articles/57256

这个案例组合使用数加的各种服务,快速的获得了大数据BI 的能力,所有的投入都是在数据业务价值的发现上,而没有花精力在技术平台的构建上。

 

上面这些案例都很好的展示了Serverless 架构对于大数据应用的价值:把用户从底层的部署,运维,以及资源管理的复杂性中解放出来,让所有的精力都可以投入在数据业务价值的探索和实现上。并且,利用数加平台,可以大大的提升数据应用的效率,传统的模式要数以月计才能完成的事情,使用Serverless 服务,几天就能完成,甚至可以更快,时效对于数据价值的最大化是至关重要的。

 

 阿里云数加平台简介

阿里云数加平台是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,主要基于大数据基础服务提供用户大数据存储和计算能力。开发者使用数加可以轻松进行各种数据采集、数据加工、BI商业智能、人工智能和数据创新等操作。阿里云数加平台作为大数据Serverless的典范,助力企业在DT时代更敏捷、更智能、更具洞察力。

透过数加平台的数据市场相关API,开发者可以通过几行代码调用数据市场中由第三方提供商开发的各种数据服务(如获取各种交通数据、气象数据、海洋数据、水利数据等),方便快捷的获取各种数据,缩短开发时间,降低开发难度。通过数据市场的各种数据原料、数据API,数据越用越有价值,数据越关联越有价值。用户可以按需以服务的方式调用所需的第三方数据,并结合自有数据实现大数据分析和应用,以得到数据价值的最大化。数据服务化是数加平台的典型特点。

在数加平台,各种计算服务开箱即用,用户不必关心大数据集群的搭建、配置和运维工作,仅需简单的几步操作,用户就可以在数加平台中上传数据、分析数据并得到分析结果。用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,数加平台根据用户的数据规模自动扩展大数据集群的存储和计算能力,使用户专心于数据分析和挖掘,最大化发挥数据的价值。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
6月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
8月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
7月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
4月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
401 1
|
9月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
867 69
|
6月前
|
Ubuntu 编译器 C语言
在Ubuntu22.04平台上交叉编译针对Rv1126架构的GCC13.2.0编译器的步骤。
遵循上述步骤,您应该能够在Ubuntu 22.04平台上成功交叉编译适用于RISC-V架构RV1126的GCC 13.2.0编译器,允许您为目标硬件构建应用程序和操作系统组件。
388 10
|
6月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
124 1
|
5月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
7月前
|
架构师 Oracle 大数据
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一
|
6月前
|
运维 监控 Java
初创代购选单体,千万级平台用微服务:一张表看懂架构选型红线
在跨境电商代购系统年交易额超3.2万亿元的背景下,本文对比微服务与单体架构的技术原理、适用场景及实战案例,结合性能、运维、成本等维度,为企业提供架构选型指南,助力实现高效扩展与稳定运营。

相关产品

  • 函数计算