致力于阿里云开源大数据商业化
能力说明:
了解Python语言的基本特性、编程环境的搭建、语法基础、算法基础等,了解Python的基本数据结构,对Python的网络编程与Web开发技术具备初步的知识,了解常用开发框架的基本特性,以及Python爬虫的基础知识。
能力说明:
基本的计算机知识与操作能力,具备Web基础知识,掌握Web的常见标准、常用浏览器的不同特性,掌握HTML与CSS的入门知识,可进行静态网页的制作与发布。
阿里云技能认证
详细说明Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。
面向未来,构建新一代开源大数据基础设施!阿里云EMR 2.0 发布会 将于12月27日14点在线上举办。
本文为作者在 StarRocks Summit Asia 2022 上的分享
无需数据导入,即可体验性能堪比数仓的数据湖分析!2022年12月8日19点,StarRocks Lakehouse Meetup - 极速湖仓分析技术专场线上直播重磅开启,精彩不容错过!
本文详细介绍了 EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践。
本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。
本文整理自阿里云开源大数据高级开发工程师杨庆苇在7月17日阿里云数据湖技术专场交流会的分享。
E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。
本文整理自阿里云数据湖构建与分析研发熊佳树在7月17日阿里云数据湖技术专场交流会的分享。
本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。
阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。
国内首批!得分排名第一!
本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。
作为一款全平台极速 MPP 架构,StarRocks 提供了多种性能优化手段与灵活的建模方式,在预聚合、宽表和星型/雪花等多种模型上,都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。
EMR StarRocks 白皮书免费下载,架构、功能、解决方案,全方位解读!
阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。
从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。
本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!
阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/RemoteShuffleService),欢迎各路开发者共建: )
近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。
日前,阿里云 E-MapReduce 与 StarRocks 社区合作,推出了首款 StarRocks 云上产品。同时,面向新老用户提供了99元指定机型(ecs.c6.xlarge)首月试用的优惠活动,欢迎感兴趣的用户前来测试。
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。
数据湖概念日益火热,本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。 【首月99元】EMR StarRocks 数据湖极速分析体验,试用火热进行中,快来申请吧 -> https://survey.aliyun.com/apps/zhiliao/Yns9d9Xxz
日前,阿里云与 StarRocks 社区合作,推出了首款 StarRocks 云上产品。此外,面向新老用户还提供了99元指定机型(ecs.c6.xlarge)首月试用的优惠活动。
本文向读者详细揭秘了数据湖分析引擎的关键技术,并通过 StarRocks 来帮助用户进一步理解系统的架构。
本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
本文将从核心能力、主要优势,及典型应用场景为大家继续介绍EMR~
本期将为大家带来开源大数据平台E-MapReduce与自建Hadoop集群对比,一起来看看吧~
阿里云开源大数据平台E-MapReduce是运行在阿里云平台上的一种大数据处理的系统解决方案,那么它到底有着怎样的功能及优势呢?一起来看看吧!
作业帮是一家以科技为载体的在线教育公司,其大数据中台作为基础系统中台,主要负责建设公司级数仓,向各个产品线提供面向业务主题的数据信息。本文主要分享了作业帮基于 DeltaLake 的数据湖建设最佳实践。
为深刻理解您的需求,提升 EMR 产品与服务能力。阿里云 EMR 团队诚邀您参加 EMR 易用性调研。我们会认真评估您提出的每一条建议,并从中筛选出优质回复回赠精美礼品。
导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。