Spark

首页 标签 Spark
# Spark #
关注
9105内容
基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。
探秘Hadoop生态10:Spark架构解析以及流式计算原理
导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。
使用spark-redis组件访问云数据库Redis
本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。
Spark修炼之道(进阶篇)——Spark入门到精通:第六节 Spark编程模型(三)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 RDD transformation(续) RDD actions 1. RDD transformation(续) (1)repartitionAndSortWithinPartitions(partitioner) repartitionAndSortWithinPa
5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
【Spark Summit EU 2016】Bing规模下的Spark Streaming
本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了在微软公司的Bing搜索每月上百万次搜索请求、每小时数十TB数据量、成千上万台机器组成数据中心、以及多个数据处理框架这样的规模下的Spark Streaming的应用。
Spark 2.4.0 standalone 模式安装
## 技能标签 - 学会安装Spark 2.4.0 standalone模式环境安装 - Spark 集群环境maste,worker,history server 启动停止命令 - Spark master,worker,history server 配置和管理界面查看 - Spark ...
StreamingPro 再次支持 Structured Streaming
之前已经写过一篇文章,StreamingPro 支持Spark Structured Streaming,不过当时只是玩票性质的,因为对Spark 2.0+ 版本其实也只是尝试性质的,重点还是放在了spark 1.6 系列的。
免费试用