看云栖说云栖——大数据 & AI

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: AI加持的大数据最终还是为了AI。

伯牙善鼓琴,钟子期善听。伯牙鼓琴,志在登高山。钟子期曰:“善哉!峨峨兮若泰山!”志在流水,钟子期曰:“善哉!洋洋兮若江河!”伯牙所念,钟子期必得之。
——《列子·汤问》

本文内容取自2019杭州云栖大会《大数据&AI峰会》。
峰会由大神贾扬清开场,贾扬清是多个AI框架的主要作者,大神刚从FaceBook转到阿里巴巴,在FaceBook之前曾在Google大脑工作过。

贾扬清的演讲有一个核心观点就是:

AI是一个系统工程,90%工作在算法之外。

在这额外的90%当中,大部分都是和大数据处理有关的工作。所以,今天的分会场主要讲的还是和大数据处理平台相关的东西,当然这个大数据处理平台是AI加持过的。

在后面的分享中,阿里云研究员关涛和资深专家徐晟一起做了题为《AI加持的阿里云飞天大数据平台技术揭秘》的演讲。

阿里云的大数据平台从2009年开始建设,一直面临成本和效率的压力,假如数据膨胀10倍,处理数据的成本也增加10倍甚至更多的话……这样的事情简直不敢想象。

阿里云处理的方案就是持续优化升级计算力

具体的做法有三种:

  • 底层高效的算子层与存储层、就是基础计算单元效率提升和存储优化节省,在巨大的体量下5%的提升都非常可观。
  • 寻找“最优”的执行计划、通过支持更多的优化工作模式,并允许在执行阶段动态选择来提高效率。
  • 自学习调优、通过基于历史信息的自学习回归优化,让飞天平台在执行计划的选择上更加聪明。

除了上述在引擎层面的优化,为了让普通开发者能够更高效的使用大数据平台,阿里云大数据开发平台的优化也经历的三个阶段:

  • 首先是围绕MaxCompute大数据引擎的优化,通过将黑屏的命令行开发界面替换为更友好的DataWorks白屏图形界面,提供了更好的权限隔离机制以保证数据安全、为了保障数据的持续产出提供了更好的调度、监控、运维功能,并围绕MaxCompute提供了机器学习(PAI)、商业智能(QuickBI)等产品。
  • 后来进入了跨引擎的一站式大数据开发平台的阶段,除了MaxCompute外,大数据开发平台还支持实时计算引擎(Flink)、EMR(Hadoop)、Elastic Search等更丰富的开源生态产品。在实现跨引擎的同时,还提供了大数据处理流程中的ETL、数据服务、应用开发等一站式服务功能。
  • 目前,阿里巴巴大数据开发平台已经进入了全域大数据平台阶段,除了能够处理云上的数据之外还支持对云下的数据进行统一的处理和查询,能够实现跨云、跨存储、跨引擎、跨地域的数据资源管理。

接下来是阿里云智能计算平台事业部产品总监的产品发布环节:

  • DataWorks 3.0、全面支持开源大数据生态产品,支持云上云下的混合调度,升级数据治理能力,更好的利用AI来优化开发平台在多引擎开发上的使用体验。
  • 机器学习PAI全线发布、提供算法模型的交易市场(AI市场)、支持AutoML自动化模型训练与调参、支持自定义算法的上传。
  • MaxCompute 3.0、成本降低70%、提供不停机上云功能、AI加持下的数仓建模和优化。
  • E-MapReduce 4.0、升级开源产品版本、缩小最低配置规格,降低准入门槛、支持更新的ECS实例。
  • 实时计算云原生版本、就是企业版的Flink,名字叫做Ververica,多了几个插件,后面介绍。
  • 交互式分析发布、兼容PostgreSQL的交互式分析产品,数据写入即可实时查询,适用于实时数仓建设,支持和MaxCompute组成联邦查询,冷热数据分层存储管理,降低成本的同时还可同时访问。
  • 图引擎和开发工具、阿里生态里的图计算引擎。
  • 阿里云Elasticsearch 2.0发布、提供了更强的性能、以及对中文更友好的阿里巴巴NLP分词器。
  • OpenSearch 2.0、和ES不同的是OpenSearch主要是聚焦在电商和推荐领域。

阿里巴巴在这个分会场的最后一个演讲时有关Flink企业版Ververica的,对比社区版本的Flink,Ververica的改进包括:

  • App Manager、提供企业级的安全特性和配置管理、日志和监控指标等。
  • Libra Service、让给Flink更容易配置和优化。
  • Stream Ledger、提供跨多条记录的一致性事务管理能力。
  • Gemini、Flink的数据持久化解决方案之一,支持更大的数据量、更快的恢复速度、更高的读写性能。

以上,就是《大数据&AI峰会》上的阿里巴巴“自己”的内容。除此以外FaceBook、Intel、Spark背后的商业公司databricks都围绕大数据和AI做了一些分享。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
16天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
15天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
11天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
21天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
75 10
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
178 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
人工智能 自然语言处理 搜索推荐
【云栖实录】大模型驱动,开源融合的AI搜索产品发布
本文介绍了2024云栖大会上,阿里云发布的年度AI搜索产品详情。
169 1
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
72847 4
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
|
人工智能 大数据 云栖大会
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
3500 0
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载