阿里巴巴大数据生态下的一些「魔法」

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 阿里巴巴的大数据生态

打造数据计算和分享的第一平台。
—— 2009年阿里云成立时的愿景

上次我们聊了聊有关网络协同的一些「启发」,那就是祭品、巫师、麻瓜结构,而在阿里巴巴的大数据生态下的「巫师」则要学习和掌握以下这些「魔法」:

  • MaxCompute大数据平台、MaxCompute是一个SaaS模式的企业级云数据仓库,是一个阿里云在2009年成立的时候就开始研发的大数据计算平台,MaxCompute对标的开源产品是Hadoop,主要的应用场景是海量数据的存储和离线批量计算,相对于Hadoop主要的优势在于其原生就具备多租户安全隔离机制和基于标签的MAC强制访问控制安全模型,另外在单位数据的计算成本上也更具优势。
  • DataWorks大数据开发平台、是一个一站式的大数据研发与数据治理平台,提供大数据管理、开发、运维、数据集成功能,通过数据集成可以集成整合各种数据源上的数据,数据治理提供数据资产管理的相关功能,包括数据发现、数据探查、数据资产地图等功能,并对于数据质量控制有一套完善的保障体系,最终支持将数据以安全可控的方式提供对外服务。最初的DataWorks主要配合MaxCompute使用,目前已经支持和Flink流式计算引擎和Hologres在线交互分析引擎配合使用,为三大计算引擎提供强大的开发、运维、报警监控平台。
  • Flink流式大数据计算引擎、对比MaxCompute离线计算引擎,Flink主要的应用场景是诸如双十一实时交易统计、实时交易风控、在线机器学习等应用场景。Flink虽然脱胎于开源产品,但阿里巴巴在合并Flink的开发团队后对在云上提供的版本进行了深度定制优化,目前已经能够完美的融入阿里巴巴的大数据生态系统中。
  • Hologres大数据交互式分析引擎、是一款大数据实时交互分析产品,可以在海量数据上提供实时的查询响应、Hologres既能提供HBase的点查询能力、也能提供Druid一样的即席查询(Ad-hoc)能力、同时也能支持Impala一样的复杂OLAP查询。Hologres在底层存储上和MaxCompute无缝打通,可以直接访问存储在MaxCompute上的数据,,从而避免数据迁移带来的额外成本,在交互接口上Hologres直接使用PostgresSQL的成熟生态,进一步降低集成和学习的成本。
  • 机器学习平台PAI、为深度学习和传统机器学习用户提供了一站式的数据处理、模型训练、模型部署和预测的一站式服务。在模型训练方面根据使用者对AI相关技术的掌握情况提供四个等级的服务,分别是零门槛的PAI-Autolearning自动化机器学习平台、提供200多种算法和组件的可视化建模平台PAI-Studio、面向Tensorflow用户提供的jupyter交互式建模平台PAI-DSW、面向需要进行深度GPU性能优化的PAI-Blade。在模型部署和预测方面可以将PAI-DSW、PAI-Studio平台训练好的模型无缝对接到PAI EAS在线推理服务,PAI EAS支持快速的弹性扩缩容和蓝绿发布等运维管理特性。
  • Datahub实时数据分发服务、是一个流式数据发布和订阅服务,区别于DataWorks内置的用于离线数据同步的数据集成,Datahub通常用来和Flink一起集成并用于流式数据的发布和订阅,Datahub支持的采集的数据源包括日志采集(LogStash/Fluntd)、数据库binlog采集(DTS/Oracle GoldenGate)、甚至包括视频采集(GB28181协议),通过订阅/分发机制实现数据的一次写入多次使用。
  • ElasticSearch检索分析引擎、ES是业内最主流的信息检索分析引擎,通常配合ES的生态服务包括Beats(数据采集器,可以向Logstash或ES发送数据)、Logstash(日志收集、过滤、传输工具)、Kibana(数据可视化监控大盘)。ES的主要应用场景包括产品和服务的搜索、数据的聚合分析、日志数据的实时监控等场景。阿里云上的ES相对于开源版本增加了额外的付费的X-pack插件和达摩院提供的中文分词器。
  • AIRec智能推荐服务、AIRec是基于阿里巴巴在电商、内容、新闻、视频直播和社交等领域的积累而为全球企业及开发者提供的云推荐服务,相对于通过PAI机器学习平台构建的半托管推荐服务,智能推荐服务AIRec一种全托管的推荐服务,提供由友盟合作打造的定制版客户端SDK,可对Android/IOS终端进行行为数据采集,将复杂的推荐算法模型、调度管理策略封装隐藏,只需完成数据对接即可使用。
  • QuickBI数据可视化分析平台、QuickBI是一个轻量级的自助BI工具服务平台,通过业务人员的拖拽式操作即可实现丰富的数据可视化效果,可以让业务人员取数找数不再依赖技术人员,通过与现有业务系统集成整合,满足各个不同岗位人员各自的数据需求,最终的目标是人人都是数据分析师。
  • DataV数据可视化平台、是一款数据可视化应用搭建平台,和QuickBI主要面向业务岗位不同,DataV面向的主要用户还是以IT技术人员为主。DataV可以为数据分析、业务分析、运营、设计师、开发者提供完整的可视化搭建工具链,从而提升数据可视化搭建效率,每年的双十晚会都会呈现由DataV搭建的数据大屏,让数据的更强烈的被大众所感知。

观察这些「魔法」不难发现:这其中既有大量自研产品,也包含诸如ES、Flink这样的优秀开源产品和服务,而无论是自研还是开源都已经在阿里巴巴生态下经过了长时间的优化、打磨、适配从而已经完美的契合在了一起,通过这些「魔法」,数据的价值将被以更快的速度、更低的延迟、更低的成本被开发出来。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 算法 搜索推荐
阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
23天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
205 1
|
4月前
|
大数据 Scala
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
17 0
|
4月前
|
分布式计算 大数据 Spark
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
21 0
|
4月前
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
4月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
190 0
|
6月前
|
存储 分布式计算 数据可视化
MaxCompute生态
MaxCompute生态
|
6月前
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(下篇) 2
大数据生态安全框架的实现原理与最佳实践(下篇)
|
6月前
|
SQL 安全 大数据
大数据生态安全框架的实现原理与最佳实践(下篇) 1
大数据生态安全框架的实现原理与最佳实践(下篇)
|
6月前
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(上篇) 2
大数据生态安全框架的实现原理与最佳实践(上篇)