开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化

# 开源大数据平台 E-MapReduce # SQL # 缓存 # 分布式计算 # 大数据 # Hadoop # 数据处理 # Apache # HIVE # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Apache # HIVE # Spark

开发者说

|

博文

|

来自：大数据与机器学习

Apache Spark 3.0：十年回顾，展望未来

今年是Spark发布的第十年，回顾Spark如何一步步发展到今天，其发展过程所积累的经验，以及这些经验对Spark未来发展的启发，对Spark大有脾益。在7月4日的Spark+AI SUMMIT 2020中文精华版线上峰会上，Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介：回顾过去的十年，并展望未来》的全面解析，为大家介绍了Spark的起源、发展过程及最新进展，同时展望了Spark的未来。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 机器学习/深度学习 # 分布式计算 # 大数据 # API # 数据处理 # Apache # Spark # 流计算 # Python

开发者说

|

博文

|

来自：大数据与机器学习

限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # Apache # 大数据 # 容器 # Kubernetes # 数据挖掘 # 机器学习/深度学习 # 算法框架/工具 # 知识图谱

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

官宣！阿里云重磅发布云原生数据湖体系

介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建（Data Lake Formation，DLF）等基础服务，同时结合阿里云上丰富的计算引擎，打造一个全新云原生数据湖体系。

# 开源大数据平台 E-MapReduce # 数据湖构建 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # SQL # 分布式计算 # Cloud Native # 大数据 # Hadoop # 数据挖掘 # 对象存储 # Spark # 数据安全/隐私保护

温柔的养猫人

|

博文

|

来自：大数据与机器学习

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

《阿里云云原生数据湖体系全解读》涵盖数据湖存储、加速、构建、计算、治理，一站搭建全新云原生数据湖体系，完成企业大数据架构转型。速度下载收藏！

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 数据湖构建 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 缓存 # 分布式计算 # Kubernetes # Cloud Native # 大数据 # 数据管理 # 对象存储 # Spark # 容器

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践

获取更详细的 Databricks 数据洞察相关信息，可至产品详情页查看：https://www.aliyun.com/product/bigdata/spark

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 云消息队列 Kafka 版 # 存储 # 传感器 # 消息中间件 # SQL # 分布式计算 # 物联网 # 数据挖掘 # Kafka # Spark # 流计算

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【详谈 Delta Lake 】系列技术专题之基础和性能（Fundamentals and Performance）

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知，Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术，而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章，将详细展开介绍 Delta Lake。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 日志服务 # SQL # 存储 # 数据采集 # 缓存 # 分布式计算 # 大数据 # 测试技术 # API # Apache # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

数据湖实操讲解【JindoFS 缓存加速】第十二讲：Spark 访问 OSS 透明缓存加速

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

# 对象存储 # 开源大数据平台 E-MapReduce # 存储 # SQL # 缓存 # 分布式计算 # Java # Hadoop # 数据管理 # 开发工具 # 对象存储 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

阿里云 E-MapReduce ClickHouse 操作指南 02期 — 快速入门

阿里云 E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库，主要用于在线分析处理查询（OLAP），能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

# 开源大数据平台 E-MapReduce # 云数据库 ClickHouse # 专有网络VPC # 负载均衡 # 存储 # 分布式计算 # 网络协议 # Java # Hadoop # 数据库连接 # OLAP # 网络安全 # 数据库 # 数据安全/隐私保护

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce