Spark的搜索结果_文章-阿里云开发者社区

玄弟

|

1天前

|

博文

在数据时代，过多耗内存的大查询都有可能压垮整个集群，所以其内存管理模块在整个系统中扮演着非常重要的角色。而PolarDB-X 作为一款分布式数据库，其面对的数据可能从TB到GB字节不等，同时又要支持TP和AP Workload，要是在计算过程中内存使用不当，不仅会造成TP和AP相互影响，严重拖慢响应时间，甚至会出现内存雪崩、OOM问题，导致数据库服务不可用。CPU和MEMORY相对于网络带宽比较昂贵，所以PolarDB-X 代价模型中，一般不会将涉及到大量数据又比较耗内存的计算下推到存储DN，DN层一般不会有比较耗内存的计算。这样还有一个好处，当查询性能低的时候，无状态的CN节点做弹性扩容代价相对于DN也低。鉴于此，所以本文主要对PolarDB-X计算层的内存管理进行分析，这有助于大家有PolarDB-X有更深入的理解。

# 云原生分布式数据库 PolarDB-X # 云原生数据库 PolarDB # 实时计算 Flink版 # SQL # 分布式计算 # 关系型数据库 # Spark # 流计算

yuanzhengme

|

1天前

|

博文

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

# 分布式计算 # Hadoop # Scala # Spark # Java

桃李春风一杯酒

|

4天前

|

博文

使用 Java 实现分布式计算和存储

【4月更文挑战第19天】本文探讨了使用 Java 实现分布式计算和存储，重点介绍了分布式计算的概念和分布式存储的优势。文中提到了Hadoop和Spark两大框架，以及HDFS和NoSQL数据库（如HBase）在存储上的应用。利用MapReduce和Spark API进行分布式计算，借助ZooKeeper实现节点协调，确保容错和可靠性。通过性能优化和调优，Java能构建高效、可靠的分布式系统，适应大数据时代的需求。

# 存储 # 分布式计算 # Java # 大数据 # Spark

爱吃糖的范同学

|

5天前

|

博文

【Flink】Flink跟Spark Streaming的区别？

【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别？

# 实时计算 Flink版 # 分布式计算 # 大数据 # 数据处理 # 流计算 # Spark

爱吃糖的范同学

|

5天前

|

博文

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【4月更文挑战第17天】【Hive】所有的Hive任务都会有MapReduce的执行吗？

# SQL # 分布式计算 # 数据处理 # HIVE # Spark

1941623231718325

|

6天前

|

博文

NumPy的并行与分布式计算实践

【4月更文挑战第17天】本文探讨了如何使用NumPy进行并行和分布式计算以提升效率。介绍了利用`numexpr`加速多核CPU计算，设置`NUMPY_NUM_THREADS`环境变量实现多线程，并通过Dask和PySpark进行分布式计算。Dask允许无缝集成NumPy，而PySpark则将NumPy数组转换为RDD进行并行处理。这些方法对处理大规模数据至关重要。

# 分布式计算 # 并行计算 # 数据处理 # Spark # Python

4as3qn2go3ure

|

7天前

|

博文

R语言进行相关矩阵分析及其可视化

# 分布式计算 # 数据可视化 # 数据库 # Spark # 数据库管理

桃李春风一杯酒

|

11天前

|

博文

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 大数据 # Spark # Python

aliyun5297948689-49597

|

12天前

|

博文

|

来自：云原生

Spark核心原理与应用场景解析：面试经验与必备知识点解析

本文深入探讨Spark核心原理（RDD、DAG、内存计算、容错机制）和生态系统（Spark SQL、MLlib、Streaming），并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作，帮助读者准备面试，同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。

# 云解析DNS # 机器学习/深度学习 # SQL # 分布式计算 # Spark # 流计算

算精通

|

13天前

|

博文

Paimon与Spark

# SQL # 存储 # 缓存 # 分布式计算 # Spark