致力于阿里云开源大数据商业化
能力说明:
了解Python语言的基本特性、编程环境的搭建、语法基础、算法基础等,了解Python的基本数据结构,对Python的网络编程与Web开发技术具备初步的知识,了解常用开发框架的基本特性,以及Python爬虫的基础知识。
能力说明:
基本的计算机知识与操作能力,具备Web基础知识,掌握Web的常见标准、常用浏览器的不同特性,掌握HTML与CSS的入门知识,可进行静态网页的制作与发布。
阿里云技能认证
详细说明本文分享企查查基于阿里云Elasticsearch 在复杂检索场景中的性能优化。
猿辅导大数据平台团队负责人申阳分享了猿辅导基于EMR StarRocks 的 OLAP 演进之路。
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
阿里云首创并推动的智能数据湖解决方案因“引领业界技术上创新”入选第六届数字中国建设峰会的“十大硬核科技”,这也是历届峰会中首次有数据湖产品入选。智能数据湖是阿里云在大数据和 AI 融合的时代背景下推出,底层融合存储和计算全新技术体系,业务侧融合多元计算,对接数据科学计算引擎。支撑在线教育、互联网广告、新媒体、网络游戏等近万家行业用户在快速发展过程中的业务需求,为企业数字化转型提供源动力。
阿里云EMR Serverless StarRocks 免费公测已开启,向所有用户开放!您可通过EMR控制台直接创建实例,轻松体验全托管、免运维的服务。
4月19日(周三)下午,水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,将针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 实战经验等一系列超干货内容,为大家带来诚意满满的技术盛宴。
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。
通过结合CloudMonitor以及FC,可以实时捕获EMR集群的生命周期变化,如集群的创建和停止,扩容和缩容以及其他类型的集群状态变更等。
本文以 Hadoop 社区中的 S3A Connector 的实现为切入,分析了数据湖写入路径的安全性。
本文旨在分享 EMR 平台大数据服务基于阿里云 CloudMonitor 的监控实践,给客户提供除了 EMR 平台默认监控以外,自建监控方式,适用于统一多个阿里云服务的监控监控场景。
本次分享主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:全托管,湖存储;一站式,湖管理;多模态,湖计算。
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。
本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享。本文从开源的角度出发,分享了阿里云EMR团队的工作。
该文章内容源于 Apache Con ASIA 2022上的分享,整理归纳成文章。
作为国内开源大数据领域的引领者,EMR2.0在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。
StarRocks 2.5 LTS 版本于近期发布,阿里云EMR Serverless StarRocks也在火热邀测中。本文将重点介绍StarRocks 2.5版本核心功能以及阿里云EMR Serverless StarRocks特性。
本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。
本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup 将于 1 月 11 日在线上举办
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。
面向未来,构建新一代开源大数据基础设施!阿里云EMR 2.0 发布会 将于12月27日14点在线上举办。
本文为作者在 StarRocks Summit Asia 2022 上的分享
无需数据导入,即可体验性能堪比数仓的数据湖分析!2022年12月8日19点,StarRocks Lakehouse Meetup - 极速湖仓分析技术专场线上直播重磅开启,精彩不容错过!
本文详细介绍了 EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践。
本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。
本文整理自阿里云开源大数据高级开发工程师杨庆苇在7月17日阿里云数据湖技术专场交流会的分享。
E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。
本文整理自阿里云数据湖构建与分析研发熊佳树在7月17日阿里云数据湖技术专场交流会的分享。
本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。
阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。
国内首批!得分排名第一!
本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。
作为一款全平台极速 MPP 架构,StarRocks 提供了多种性能优化手段与灵活的建模方式,在预聚合、宽表和星型/雪花等多种模型上,都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。
EMR StarRocks 白皮书免费下载,架构、功能、解决方案,全方位解读!
阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。
从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。
本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!
阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/RemoteShuffleService),欢迎各路开发者共建: )
近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。
日前,阿里云 E-MapReduce 与 StarRocks 社区合作,推出了首款 StarRocks 云上产品。同时,面向新老用户提供了99元指定机型(ecs.c6.xlarge)首月试用的优惠活动,欢迎感兴趣的用户前来测试。
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。