Spark

首页 标签 Spark
# Spark #
关注
9106内容
| |
来自: 数据库
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
Spark的几种运行模式
应用场景 spark是基于内存计算的计算框架,性能很强悍,但是它支持单机模式,同时也支持集群模式,它的运行模式有好多种,为了不混淆方便区分,这里进行一些总结。
Spark修炼之道(基础篇)——Linux大数据开发基础:第四节:Linux文件系统(二)
本节主要内容 访问控制列表ACL 链接 压缩和归档文件 其他日常管理实用程序 1. 访问控制列表ACL 在实际使用使用过程中,可能linux系统自身权限控制不能满足要求,还需要进一步细化,此时可以用ACL( Access Control List )进行,它主要提供 owner,group,others 的 read,write,execute 权限之外的细部权限配置
PySpark安装+Jupyter Notebook配置(Ubuntu 18.06)
学校一门Big Data Computing需要学习Spark in Python。 这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。
Hadoop大数据平台实战(05):深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s
Hadoop大数据平台实战(05):Spark Cluster集群模式YARN, Mesos,Standalone和K8s深入对比。监控,调度,监控,安全机制,特性对比,哪个才是最好的Spark集群管理工具。
免费试用