开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

Spark整合Ray思路漫谈

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # GPU云服务器 # 机器学习/深度学习 # 分布式计算 # 资源调度 # Kubernetes # 算法 # 数据处理 # Spark # 异构计算 # Python # 容器

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 人工智能 # 分布式计算 # 并行计算 # 负载均衡 # Hadoop # 大数据 # HIVE # Spark # 流计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍，本文探讨了一种数据管理架构，该架构可以在数据到达时，通过主动监控和分析来检测流式数据中损坏或不良的数据，并且不会造成瓶颈。

# 开源大数据平台 E-MapReduce # 数据采集 # 消息中间件 # 存储 # 分布式计算 # 监控 # Kafka # 测试技术 # 数据处理 # 流计算 # Spark

黯灭_邓彬

|

博文

|

来自：大数据与机器学习

降本增效利器！趣头条Spark Remote Shuffle Service最佳实践

趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长，如何优化大数据平台，真正实现降本增效，技术人也面临着非常大的挑战，近半年趣头条和阿里云一起合作，通过Spark Remote Shuffle Service取得了较大的进展，在这里大家可以更加详细地了解这套方案。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 资源调度 # Kubernetes # Cloud Native # 大数据 # 调度 # Spark # 混合部署 # 容器

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

数据湖实操讲解【OSS 访问加速】第七讲：Flink 高效 sink 写入 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 对象存储 # 缓存 # 弹性计算 # 算法 # Java # Apache # 开发工具 # 对象存储 # 流计算 # C++ # Python

扬流

|

博文

|

来自：大数据与机器学习

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # SQL # JSON # 分布式计算 # 大数据 # 数据管理 # 数据处理 # 数据库 # Spark # 数据格式

灵杰开发者

|

博文

|

来自：大数据与机器学习

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理，并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上，并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake，最终可以实践到工作当中。

# 开源大数据平台 E-MapReduce # 存储 # SQL # 人工智能 # 分布式计算 # 大数据 # 数据处理 # API # Apache # Spark # 流计算

扬流

|

电子书

|

来自：大数据与机器学习

EMR StarRocks 白皮书

StarRocks-新一代极速全场景MPP数据仓库产品解决方案。StarRocks 具备⽔平在线扩缩容，⾦融级⾼可⽤，兼容 MySQL 5.7 协议和 MySQL ⽣态，提供全⾯向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为⽤户提供统⼀的解决⽅案，适⽤于对性能、实时性、并发能⼒和灵活性有较⾼要求的各类应⽤场景。

# 开源大数据平台 E-MapReduce # OLAP # 数据管理 # 数据处理 # BI

扬流

|

电子书

|

来自：大数据与机器学习

数据湖技术解析

数据湖无疑是近几年大数据领域最火热的一个方向，那到底什么是数据湖？数据湖的架构和核心技术有哪些？企业应该如何构建、管理和使用数据湖？阿里云开源大数据团队结合在数据湖领域多年的深耕和实战经验，通过本书全方位介绍了从数据湖架构到核心技术到平台构建的内容。

# 数据湖构建 # 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 数据管理 # OLAP

爱吃鱼的程序员

|

问答

|

来自：大数据与机器学习

NeuSoft是什么？

# 开源大数据平台 E-MapReduce

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce