开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 大数据 # 分布式计算 # 对象存储 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急，然而病毒尚未消散，风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据，但由于脱离疾病传播机理，外推预测的可靠性低。与以往的疾病传播模型不同，南栖仙策的模型对病情的发展进行建模，能够更好的模拟潜伏期、无症状感染者。

# 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 人工智能 # 分布式计算 # 安全 # 大数据 # Apache # Spark # Python

开源大数据EMR

|

博文

|

来自：大数据与机器学习

通过Job Committer保证Mapreduce/Spark任务数据一致性

通过对象存储系统普遍提供的Multipart Upload功能，实现的No-Rename Committer在数据一致性和性能方面相对于FileOutputCommitter V1/V2版本均有较大提升，在使用MapRedcue和Spark写入数据到S3/Oss的场景中更加推荐使用。

# 开源大数据平台 E-MapReduce # 对象存储 # SQL # 分布式计算 # Hadoop # 大数据 # 分布式数据库 # Apache # 对象存储 # HIVE # Spark # 流计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Apache # HIVE # Spark

开发者说

|

博文

|

来自：大数据与机器学习

使用Databricks作为分析平台

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享，介绍了YipitData公司基于Databricks平台搭建的分析平台。

# 开源大数据平台 E-MapReduce # 大数据开发治理平台 DataWorks # 存储 # JSON # 分布式计算 # DataWorks # 数据挖掘 # API # Spark # 数据格式 # Python # 人工智能

黯灭_邓彬

|

博文

|

来自：大数据与机器学习

降本增效利器！趣头条Spark Remote Shuffle Service最佳实践

趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长，如何优化大数据平台，真正实现降本增效，技术人也面临着非常大的挑战，近半年趣头条和阿里云一起合作，通过Spark Remote Shuffle Service取得了较大的进展，在这里大家可以更加详细地了解这套方案。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 资源调度 # Kubernetes # Cloud Native # 大数据 # 调度 # Spark # 混合部署 # 容器

扬流

|

博文

阿里云E-MapReduce全面支持Alluxio，为大数据全“源”加速

导读：阿里云 E-MapReduce全面支持Alluxio，Alluxio作为大数据领域存储层解决方案，将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速，让计算层和存储层能够轻装上阵，独立优化，又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 缓存 # 弹性计算 # 分布式计算 # 大数据 # Hadoop # 关系型数据库 # Apache # 对象存储 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

大数据和AI | 基于Spark的高性能向量化查询引擎

由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上，几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 存储 # SQL # 缓存 # 分布式计算 # 固态存储 # 大数据 # Apache # Spark # C++ # 内存技术

chenyunaling

|

博文

|

来自：大数据与机器学习

达梦DM8 MPPDB集群搭建及使用

作者：陈云亮，系深圳某数据治理厂商，有10余年IT从业经验，在数据仓库，传统数据库和大数据领域有丰富的实战经验。基于三节点搭建DM8 MPPDB集群方案具体步骤，可操作性强。

# 开源大数据平台 E-MapReduce # 日志服务 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云防火墙 # SQL # 网络协议 # 前端开发 # Java # 应用服务中间件 # 网络安全 # Apache # 数据库 # 数据安全/隐私保护 # Windows

扬流

|

博文

|

来自：大数据与机器学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

# 开源大数据平台 E-MapReduce # 对象存储 # 日志服务 # 云解析DNS # 存储 # 数据采集 # 机器学习/深度学习 # 分布式计算 # 大数据 # BI # 数据库 # 对象存储 # Spark # 数据格式

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce