Spark

首页 标签 Spark
# Spark #
关注
9112内容
日均万亿条数据如何处理?爱奇艺实时计算平台这样做
本文由爱奇艺大数据服务负责人梁建煌分享,介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台,并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。
【Spark Summit East 2017】使用Spark对于灾难性事件进行建模
本讲义出自Shuai Zheng在Spark Summit East 2017上的演讲,分保公司的核心竞争力在于与像飓风和地震这样的灾难的风险量化评估能力,各种所谓的灾难模型往往是的公开的,可以获取到,但是处理这样灾难模型的数据量需要大数据能力和高性能,本讲义就介绍了如何使用Spark对于灾难性事件进行建模,并通过更加独特的理解获取核心竞争力。
使用EMR Spark Relational Cache跨集群同步数据
Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。
StreamingPro 支持多输入,多输出配置
最近正好有个需求,就是从不同的数据库以及表里拉出数据,经过一定的处理放到ES里供查询,最好还能放个到parquet里,这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的,所以做了些改造,方便配置多个数据源,以及多个写出。
免费试用