开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
大数据和AI | 基于Spark的高性能向量化查询引擎
由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上,几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。
降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长,如何优化大数据平台,真正实现降本增效,技术人也面临着非常大的挑战,近半年趣头条和阿里云一起合作,通过Spark Remote Shuffle Service取得了较大的进展,在这里大家可以更加详细地了解这套方案。
2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!
始于开源,精于实践,作为2020年收官之战,本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火?开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾?来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体,我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口,透出属于大数据人的科技之光。
第三节课:EMR 的存储解决方案
本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作
第二节课:EMR 产品入门
本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。
第一节课:走进开源大数据平台 EMR
本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍:夏俊鸾,花名亦龙,阿里云智能资深技术专家讲师:王晓平,花名子关,阿里巴巴 EMR 产品专家