Spark

首页 标签 Spark
# Spark #
关注
9123内容
日志服务(原SLS)新功能发布(3)--多实例协同消费库(loghub client library)
loghub client library是对LogHub消费者提供的高级模式,解决多个消费者同时消费logstore时自动分配shard问题。 例如在storm、spark场景中多个消费者情况下,自动处理shard的负载均衡,消费者failover等逻辑。用户只需专注在自己业务逻辑上,而无需关心
scala + intellij idea 环境搭建及编译、打包
大数据生态圈中风头正旺的Spark项目完全是采用Scala语言开发的,不懂Scala的话,基本上就没法玩下去了。Scala与Java编译后的class均可以运行于JVM之上,就好象.NET中F#与C#的关系。
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
利用 sparksession读取Parquet,Json格式文件
Spark支持的一些常见的格式: 文本文件:无任何的格式 json文件:半结构化 parquet:一种流行的列式存储格式 sequencefile:一种(k-v)的Hadoop文件格式.
【Spark Summit EU 2016】Apptopia:仅凭勇气、速度与Spark集群,构建APP市场
本讲义出自Johnathan Mercer在Spark Summit EU 2016上的演讲,主要介绍了作为移动应用智能公司的Apptopia,Apptopia致力于解决移动应用市场的问题,他们通过Spark将共有数据以及自己的私有数据进行结合进行分析预测。
【Spark Summit East 2017】RISE实验室: 赋能智能实时决策
本讲义出自Ion Stoica在Spark Summit East 2017上的演讲,主要分享了其所在的加州大学伯克利分校的RISELab的研究方向,并讨论了一些RISE技术能够输出的应用方向。
免费试用