看云栖说云栖——大数据 & AI

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: AI加持的大数据最终还是为了AI。

伯牙善鼓琴,钟子期善听。伯牙鼓琴,志在登高山。钟子期曰:“善哉!峨峨兮若泰山!”志在流水,钟子期曰:“善哉!洋洋兮若江河!”伯牙所念,钟子期必得之。
——《列子·汤问》

本文内容取自2019杭州云栖大会《大数据&AI峰会》。
峰会由大神贾扬清开场,贾扬清是多个AI框架的主要作者,大神刚从FaceBook转到阿里巴巴,在FaceBook之前曾在Google大脑工作过。

贾扬清的演讲有一个核心观点就是:

AI是一个系统工程,90%工作在算法之外。

在这额外的90%当中,大部分都是和大数据处理有关的工作。所以,今天的分会场主要讲的还是和大数据处理平台相关的东西,当然这个大数据处理平台是AI加持过的。

在后面的分享中,阿里云研究员关涛和资深专家徐晟一起做了题为《AI加持的阿里云飞天大数据平台技术揭秘》的演讲。

阿里云的大数据平台从2009年开始建设,一直面临成本和效率的压力,假如数据膨胀10倍,处理数据的成本也增加10倍甚至更多的话……这样的事情简直不敢想象。

阿里云处理的方案就是持续优化升级计算力

具体的做法有三种:

  • 底层高效的算子层与存储层、就是基础计算单元效率提升和存储优化节省,在巨大的体量下5%的提升都非常可观。
  • 寻找“最优”的执行计划、通过支持更多的优化工作模式,并允许在执行阶段动态选择来提高效率。
  • 自学习调优、通过基于历史信息的自学习回归优化,让飞天平台在执行计划的选择上更加聪明。

除了上述在引擎层面的优化,为了让普通开发者能够更高效的使用大数据平台,阿里云大数据开发平台的优化也经历的三个阶段:

  • 首先是围绕MaxCompute大数据引擎的优化,通过将黑屏的命令行开发界面替换为更友好的DataWorks白屏图形界面,提供了更好的权限隔离机制以保证数据安全、为了保障数据的持续产出提供了更好的调度、监控、运维功能,并围绕MaxCompute提供了机器学习(PAI)、商业智能(QuickBI)等产品。
  • 后来进入了跨引擎的一站式大数据开发平台的阶段,除了MaxCompute外,大数据开发平台还支持实时计算引擎(Flink)、EMR(Hadoop)、Elastic Search等更丰富的开源生态产品。在实现跨引擎的同时,还提供了大数据处理流程中的ETL、数据服务、应用开发等一站式服务功能。
  • 目前,阿里巴巴大数据开发平台已经进入了全域大数据平台阶段,除了能够处理云上的数据之外还支持对云下的数据进行统一的处理和查询,能够实现跨云、跨存储、跨引擎、跨地域的数据资源管理。

接下来是阿里云智能计算平台事业部产品总监的产品发布环节:

  • DataWorks 3.0、全面支持开源大数据生态产品,支持云上云下的混合调度,升级数据治理能力,更好的利用AI来优化开发平台在多引擎开发上的使用体验。
  • 机器学习PAI全线发布、提供算法模型的交易市场(AI市场)、支持AutoML自动化模型训练与调参、支持自定义算法的上传。
  • MaxCompute 3.0、成本降低70%、提供不停机上云功能、AI加持下的数仓建模和优化。
  • E-MapReduce 4.0、升级开源产品版本、缩小最低配置规格,降低准入门槛、支持更新的ECS实例。
  • 实时计算云原生版本、就是企业版的Flink,名字叫做Ververica,多了几个插件,后面介绍。
  • 交互式分析发布、兼容PostgreSQL的交互式分析产品,数据写入即可实时查询,适用于实时数仓建设,支持和MaxCompute组成联邦查询,冷热数据分层存储管理,降低成本的同时还可同时访问。
  • 图引擎和开发工具、阿里生态里的图计算引擎。
  • 阿里云Elasticsearch 2.0发布、提供了更强的性能、以及对中文更友好的阿里巴巴NLP分词器。
  • OpenSearch 2.0、和ES不同的是OpenSearch主要是聚焦在电商和推荐领域。

阿里巴巴在这个分会场的最后一个演讲时有关Flink企业版Ververica的,对比社区版本的Flink,Ververica的改进包括:

  • App Manager、提供企业级的安全特性和配置管理、日志和监控指标等。
  • Libra Service、让给Flink更容易配置和优化。
  • Stream Ledger、提供跨多条记录的一致性事务管理能力。
  • Gemini、Flink的数据持久化解决方案之一,支持更大的数据量、更快的恢复速度、更高的读写性能。

以上,就是《大数据&AI峰会》上的阿里巴巴“自己”的内容。除此以外FaceBook、Intel、Spark背后的商业公司databricks都围绕大数据和AI做了一些分享。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
217 0
|
4月前
|
机器学习/深度学习 人工智能 算法
别再只看病了,来看看“大数据+AI”是怎么救命的!
别再只看病了,来看看“大数据+AI”是怎么救命的!
103 1
|
3月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年5月】
大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
3月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
432 2
|
4月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
124 1
|
1月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
66 0
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
85 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
186 3