开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1506内容
梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践
梨视频由前澎湃新闻掌门人邱兵创立。 在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。 这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在
通过WebUI查看Structured Streaming作业统计信息
从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。
Apache Avro as a Built-in Data Source in Apache Spark 2.4
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.
Koalas:让 pandas 轻松切换 Apache Spark
4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4
EMR Spark Relational Cache的执行计划重写
背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。
玩转阿里云EMR三部曲-中级篇 集成自有服务
利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。
【译】Hadoop发生了什么?我们该如何做?
许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾经是最被炒作的技术,如今属于人工智能。当心炒作周期,有一天你可能不得不为它的影响负责。
Apache Spark中国技术交流社区历次直播回顾(持续更新)
Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。
自建Hadoop数据迁移到阿里云EMR
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。
Apache iceberg:Netflix 数据仓库的基石
Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。
免费试用