开源大数据平台 E-MapReduce的搜索结果_热门

xy_xin

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

# 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Hadoop发生了什么？我们该如何做？

许多组织都关注Hadoop生态系统的最新发展，并承受着展示数据湖价值的压力。对于企业来说，至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化，以及实现这一目标的最佳策略。Hadoop曾经是最被炒作的技术，如今属于人工智能。当心炒作周期，有一天你可能不得不为它的影响负责。

# 开源大数据平台 E-MapReduce # 分布式计算 # Hadoop # Apache # Spark # 存储

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表

本文以案例演示在最新的 Delta Lake 0.4.0 中，如何转换 Delta Lake 表，使用全新的 Python API 执行 upsert 与删除数据，用时间旅行 (time travel) 查询数据的旧版本，以及 vacuum 语句清理旧版本。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark # SQL # Python # API # Apache

开源大数据EMR

|

博文

|

来自：大数据与机器学习

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据，并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比，产生了显著的性能改进（ CPU性能提升、节省了资源的使用，降低延迟）。

# 开源大数据平台 E-MapReduce # SQL # 机器学习/深度学习 # 缓存 # 分布式计算 # 大数据 # 测试技术 # Apache # HIVE # Spark # 索引

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中，Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲，分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 存储 # SQL # 分布式计算 # Cloud Native # Hadoop # 分布式数据库 # Apache # Spark # 容器 # Hbase

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # 自然语言处理 # 大数据 # Apache # HIVE # 对象存储 # Spark # 流计算

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Hadoop # Apache # HIVE # 对象存储 # 流计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

EMR Spark-SQL性能极致优化揭秘概览篇

这次的优化里面，还有一个很好玩的优化，就是我们引入的 Native Runtime，如果说上述的优化器优化都是一些特殊 Case 的杀手锏，Native Runtime 就是一个广谱大杀器，根据我们后期统计，引入 Native Runtime，可以普适性的提高 SQL Query 15～20%的 E2E 耗时，这个在TPCDS Perf 里面也是一个很大的性能提升点。

# 开源大数据平台 E-MapReduce # SQL # 缓存 # 分布式计算 # 大数据 # Java # Apache # Spark # C++ # 开发者

开源大数据EMR

|

博文

|

来自：大数据与机器学习

招聘！招聘！招聘！计算平台解决方案架构师专场

为了帮助客户更加高效地使用大数据产品，发挥数据价值，现计算平台招募大数据及AI产品解决方案架构师，欢迎在北京、杭州的同学加入我们！

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 机器学习/深度学习 # 人工智能 # 分布式计算 # 架构师 # 大数据 # 数据挖掘 # Apache # 图计算 # Spark # 流计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce