看云栖说云栖——大数据 & AI

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: AI加持的大数据最终还是为了AI。

伯牙善鼓琴,钟子期善听。伯牙鼓琴,志在登高山。钟子期曰:“善哉!峨峨兮若泰山!”志在流水,钟子期曰:“善哉!洋洋兮若江河!”伯牙所念,钟子期必得之。
——《列子·汤问》

本文内容取自2019杭州云栖大会《大数据&AI峰会》。
峰会由大神贾扬清开场,贾扬清是多个AI框架的主要作者,大神刚从FaceBook转到阿里巴巴,在FaceBook之前曾在Google大脑工作过。

贾扬清的演讲有一个核心观点就是:

AI是一个系统工程,90%工作在算法之外。

在这额外的90%当中,大部分都是和大数据处理有关的工作。所以,今天的分会场主要讲的还是和大数据处理平台相关的东西,当然这个大数据处理平台是AI加持过的。

在后面的分享中,阿里云研究员关涛和资深专家徐晟一起做了题为《AI加持的阿里云飞天大数据平台技术揭秘》的演讲。

阿里云的大数据平台从2009年开始建设,一直面临成本和效率的压力,假如数据膨胀10倍,处理数据的成本也增加10倍甚至更多的话……这样的事情简直不敢想象。

阿里云处理的方案就是持续优化升级计算力

具体的做法有三种:

  • 底层高效的算子层与存储层、就是基础计算单元效率提升和存储优化节省,在巨大的体量下5%的提升都非常可观。
  • 寻找“最优”的执行计划、通过支持更多的优化工作模式,并允许在执行阶段动态选择来提高效率。
  • 自学习调优、通过基于历史信息的自学习回归优化,让飞天平台在执行计划的选择上更加聪明。

除了上述在引擎层面的优化,为了让普通开发者能够更高效的使用大数据平台,阿里云大数据开发平台的优化也经历的三个阶段:

  • 首先是围绕MaxCompute大数据引擎的优化,通过将黑屏的命令行开发界面替换为更友好的DataWorks白屏图形界面,提供了更好的权限隔离机制以保证数据安全、为了保障数据的持续产出提供了更好的调度、监控、运维功能,并围绕MaxCompute提供了机器学习(PAI)、商业智能(QuickBI)等产品。
  • 后来进入了跨引擎的一站式大数据开发平台的阶段,除了MaxCompute外,大数据开发平台还支持实时计算引擎(Flink)、EMR(Hadoop)、Elastic Search等更丰富的开源生态产品。在实现跨引擎的同时,还提供了大数据处理流程中的ETL、数据服务、应用开发等一站式服务功能。
  • 目前,阿里巴巴大数据开发平台已经进入了全域大数据平台阶段,除了能够处理云上的数据之外还支持对云下的数据进行统一的处理和查询,能够实现跨云、跨存储、跨引擎、跨地域的数据资源管理。

接下来是阿里云智能计算平台事业部产品总监的产品发布环节:

  • DataWorks 3.0、全面支持开源大数据生态产品,支持云上云下的混合调度,升级数据治理能力,更好的利用AI来优化开发平台在多引擎开发上的使用体验。
  • 机器学习PAI全线发布、提供算法模型的交易市场(AI市场)、支持AutoML自动化模型训练与调参、支持自定义算法的上传。
  • MaxCompute 3.0、成本降低70%、提供不停机上云功能、AI加持下的数仓建模和优化。
  • E-MapReduce 4.0、升级开源产品版本、缩小最低配置规格,降低准入门槛、支持更新的ECS实例。
  • 实时计算云原生版本、就是企业版的Flink,名字叫做Ververica,多了几个插件,后面介绍。
  • 交互式分析发布、兼容PostgreSQL的交互式分析产品,数据写入即可实时查询,适用于实时数仓建设,支持和MaxCompute组成联邦查询,冷热数据分层存储管理,降低成本的同时还可同时访问。
  • 图引擎和开发工具、阿里生态里的图计算引擎。
  • 阿里云Elasticsearch 2.0发布、提供了更强的性能、以及对中文更友好的阿里巴巴NLP分词器。
  • OpenSearch 2.0、和ES不同的是OpenSearch主要是聚焦在电商和推荐领域。

阿里巴巴在这个分会场的最后一个演讲时有关Flink企业版Ververica的,对比社区版本的Flink,Ververica的改进包括:

  • App Manager、提供企业级的安全特性和配置管理、日志和监控指标等。
  • Libra Service、让给Flink更容易配置和优化。
  • Stream Ledger、提供跨多条记录的一致性事务管理能力。
  • Gemini、Flink的数据持久化解决方案之一,支持更大的数据量、更快的恢复速度、更高的读写性能。

以上,就是《大数据&AI峰会》上的阿里巴巴“自己”的内容。除此以外FaceBook、Intel、Spark背后的商业公司databricks都围绕大数据和AI做了一些分享。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
275 24
大数据& AI 产品月刊【2025年3月】
大数据& AI 产品技术月刊【2025年3月】,涵盖双月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
大数据& AI 产品月刊【2025年1、2月】
大数据& AI 产品技术月刊【2025年1、2月】,涵盖双月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
139 2
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
57 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等