阿里巴巴大数据生态下的一些「魔法」

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里巴巴的大数据生态

打造数据计算和分享的第一平台。
—— 2009年阿里云成立时的愿景

上次我们聊了聊有关网络协同的一些「启发」,那就是祭品、巫师、麻瓜结构,而在阿里巴巴的大数据生态下的「巫师」则要学习和掌握以下这些「魔法」:

  • MaxCompute大数据平台、MaxCompute是一个SaaS模式的企业级云数据仓库,是一个阿里云在2009年成立的时候就开始研发的大数据计算平台,MaxCompute对标的开源产品是Hadoop,主要的应用场景是海量数据的存储和离线批量计算,相对于Hadoop主要的优势在于其原生就具备多租户安全隔离机制和基于标签的MAC强制访问控制安全模型,另外在单位数据的计算成本上也更具优势。
  • DataWorks大数据开发平台、是一个一站式的大数据研发与数据治理平台,提供大数据管理、开发、运维、数据集成功能,通过数据集成可以集成整合各种数据源上的数据,数据治理提供数据资产管理的相关功能,包括数据发现、数据探查、数据资产地图等功能,并对于数据质量控制有一套完善的保障体系,最终支持将数据以安全可控的方式提供对外服务。最初的DataWorks主要配合MaxCompute使用,目前已经支持和Flink流式计算引擎和Hologres在线交互分析引擎配合使用,为三大计算引擎提供强大的开发、运维、报警监控平台。
  • Flink流式大数据计算引擎、对比MaxCompute离线计算引擎,Flink主要的应用场景是诸如双十一实时交易统计、实时交易风控、在线机器学习等应用场景。Flink虽然脱胎于开源产品,但阿里巴巴在合并Flink的开发团队后对在云上提供的版本进行了深度定制优化,目前已经能够完美的融入阿里巴巴的大数据生态系统中。
  • Hologres大数据交互式分析引擎、是一款大数据实时交互分析产品,可以在海量数据上提供实时的查询响应、Hologres既能提供HBase的点查询能力、也能提供Druid一样的即席查询(Ad-hoc)能力、同时也能支持Impala一样的复杂OLAP查询。Hologres在底层存储上和MaxCompute无缝打通,可以直接访问存储在MaxCompute上的数据,,从而避免数据迁移带来的额外成本,在交互接口上Hologres直接使用PostgresSQL的成熟生态,进一步降低集成和学习的成本。
  • 机器学习平台PAI、为深度学习和传统机器学习用户提供了一站式的数据处理、模型训练、模型部署和预测的一站式服务。在模型训练方面根据使用者对AI相关技术的掌握情况提供四个等级的服务,分别是零门槛的PAI-Autolearning自动化机器学习平台、提供200多种算法和组件的可视化建模平台PAI-Studio、面向Tensorflow用户提供的jupyter交互式建模平台PAI-DSW、面向需要进行深度GPU性能优化的PAI-Blade。在模型部署和预测方面可以将PAI-DSW、PAI-Studio平台训练好的模型无缝对接到PAI EAS在线推理服务,PAI EAS支持快速的弹性扩缩容和蓝绿发布等运维管理特性。
  • Datahub实时数据分发服务、是一个流式数据发布和订阅服务,区别于DataWorks内置的用于离线数据同步的数据集成,Datahub通常用来和Flink一起集成并用于流式数据的发布和订阅,Datahub支持的采集的数据源包括日志采集(LogStash/Fluntd)、数据库binlog采集(DTS/Oracle GoldenGate)、甚至包括视频采集(GB28181协议),通过订阅/分发机制实现数据的一次写入多次使用。
  • ElasticSearch检索分析引擎、ES是业内最主流的信息检索分析引擎,通常配合ES的生态服务包括Beats(数据采集器,可以向Logstash或ES发送数据)、Logstash(日志收集、过滤、传输工具)、Kibana(数据可视化监控大盘)。ES的主要应用场景包括产品和服务的搜索、数据的聚合分析、日志数据的实时监控等场景。阿里云上的ES相对于开源版本增加了额外的付费的X-pack插件和达摩院提供的中文分词器。
  • AIRec智能推荐服务、AIRec是基于阿里巴巴在电商、内容、新闻、视频直播和社交等领域的积累而为全球企业及开发者提供的云推荐服务,相对于通过PAI机器学习平台构建的半托管推荐服务,智能推荐服务AIRec一种全托管的推荐服务,提供由友盟合作打造的定制版客户端SDK,可对Android/IOS终端进行行为数据采集,将复杂的推荐算法模型、调度管理策略封装隐藏,只需完成数据对接即可使用。
  • QuickBI数据可视化分析平台、QuickBI是一个轻量级的自助BI工具服务平台,通过业务人员的拖拽式操作即可实现丰富的数据可视化效果,可以让业务人员取数找数不再依赖技术人员,通过与现有业务系统集成整合,满足各个不同岗位人员各自的数据需求,最终的目标是人人都是数据分析师。
  • DataV数据可视化平台、是一款数据可视化应用搭建平台,和QuickBI主要面向业务岗位不同,DataV面向的主要用户还是以IT技术人员为主。DataV可以为数据分析、业务分析、运营、设计师、开发者提供完整的可视化搭建工具链,从而提升数据可视化搭建效率,每年的双十晚会都会呈现由DataV搭建的数据大屏,让数据的更强烈的被大众所感知。

观察这些「魔法」不难发现:这其中既有大量自研产品,也包含诸如ES、Flink这样的优秀开源产品和服务,而无论是自研还是开源都已经在阿里巴巴生态下经过了长时间的优化、打磨、适配从而已经完美的契合在了一起,通过这些「魔法」,数据的价值将被以更快的速度、更低的延迟、更低的成本被开发出来。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
243 1
|
6月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
170 58
|
5月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
6月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
6月前
|
人工智能 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态。分布式计算框架 MaxFrame 支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。用户可以以更熟悉、高效、灵活的方式在 MaxCompute 上进行大规模数据分析处理、可视化数据探索分析以及科学计算、ML/AI 开发等工作。
269 7
|
6月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
8月前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
910 2
|
8月前
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
8月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
1576 1
|
8月前
|
大数据 Scala
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
64 0