开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1808内容
助力云上开源生态 - 阿里云开源大数据平台的发展
阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。
Python搭建新冠肺炎预测模型全解读
新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。
通过Job Committer保证Mapreduce/Spark任务数据一致性
通过对象存储系统普遍提供的Multipart Upload功能,实现的No-Rename Committer在数据一致性和性能方面相对于FileOutputCommitter V1/V2版本均有较大提升,在使用MapRedcue和Spark写入数据到S3/Oss的场景中更加推荐使用。
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免
使用Databricks作为分析平台
SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享,介绍了YipitData公司基于Databricks平台搭建的分析平台。
降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长,如何优化大数据平台,真正实现降本增效,技术人也面临着非常大的挑战,近半年趣头条和阿里云一起合作,通过Spark Remote Shuffle Service取得了较大的进展,在这里大家可以更加详细地了解这套方案。
阿里云E-MapReduce全面支持Alluxio,为大数据全“源”加速
导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。
大数据和AI | 基于Spark的高性能向量化查询引擎
由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上,几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。
达梦DM8 MPPDB集群搭建及使用
作者:陈云亮,系深圳某数据治理厂商,有10余年IT从业经验,在数据仓库,传统数据库和大数据领域有丰富的实战经验。 基于三节点搭建DM8 MPPDB集群方案具体步骤,可操作性强。
免费试用