Spark

首页 标签 Spark
# Spark #
关注
9105内容
开源大数据技术专场(下午):Databricks、Intel、阿里、梨视频的技术实践
本论坛第一次聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家,讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索。
阿里云网络增强型云服务器计算型、通用型和内存型有什么区别?
阿里云网络增强型云服务器具有网络延迟低超强的网路收发包能力,网络增强型云服务器又分为计算型、通用型和内存型,那么三者有什么区别?新手站长网分享计算型、通用型和内存型网络增强云服务器的区别: 计算型、通用型和内存型之间的区别 计算型、通用型和内存型网络增强型云服务器的详细区别可以对比:ECS云服务器实例规格族官方详解 - 阿里云,官方有详细的对比说明: 相同之处CPU处理器:2.
专访HDFS committer Intel 研发经理郑锴:EC之后,HDFS下一步新思考
在作为HDFS诞生以来的最大改进——支持了纠删码(erasure coding)之后,面对这个比较完善但并不十全十美的方案,面对Hadoop开源生态,HDFS的下一步将走向何处呢?
| |
来自: 数据库
深入理解 Apache Spark Delta Lake 的事务日志
深入理解 Apache Spark Delta Lake 的事务日志 事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。
说说阿里增量计算框架Galaxy
增量计算模型 (一) 背景 Galaxy是阿里数据平台事业部,实时计算组自研的增量计算框架。今年双十一,阿里直播大屏就是Galaxy支持和保障的重要业务之一,相信大家可能看过双十一之后网上一些介绍性的文章了,比如 阿里研发实时计算平台 每秒运算量将超千万 ,不过这篇文章面向非技术人员,最后的比喻也是有点醉。还这篇比较新的  阿里巴巴实时数据公共层助力双11媒体直播 。
Spark基本的RDD算子之groupBy,groupByKey,mapValues
1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])] groupBy算子接收一个函数,这个函数返回的值作为key,然后通过这个key来对里面的元素进行分组。
| |
来自: 数据库
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
部分RDS和POLARDB For MySQL的用户曾遇到如下场景:当一张表的数据达到几千万时,你查询一次所花的时间会变多。 这时候采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。 本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓,做统一的大数据计算。
免费试用