Spark的搜索结果_文章-阿里云开发者社区

桃李春风一杯酒

|

1天前

|

博文

【4月更文挑战第19天】本文探讨了使用 Java 实现分布式计算和存储，重点介绍了分布式计算的概念和分布式存储的优势。文中提到了Hadoop和Spark两大框架，以及HDFS和NoSQL数据库（如HBase）在存储上的应用。利用MapReduce和Spark API进行分布式计算，借助ZooKeeper实现节点协调，确保容错和可靠性。通过性能优化和调优，Java能构建高效、可靠的分布式系统，适应大数据时代的需求。

# 存储 # 分布式计算 # Java # 大数据 # Spark

爱吃糖的范同学

|

1天前

|

博文

【Flink】Flink跟Spark Streaming的区别？

【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别？

# 实时计算 Flink版 # 分布式计算 # 大数据 # 数据处理 # 流计算 # Spark

爱吃糖的范同学

|

1天前

|

博文

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【4月更文挑战第17天】【Hive】所有的Hive任务都会有MapReduce的执行吗？

# SQL # 分布式计算 # 数据处理 # HIVE # Spark

1941623231718325

|

3天前

|

博文

NumPy的并行与分布式计算实践

【4月更文挑战第17天】本文探讨了如何使用NumPy进行并行和分布式计算以提升效率。介绍了利用`numexpr`加速多核CPU计算，设置`NUMPY_NUM_THREADS`环境变量实现多线程，并通过Dask和PySpark进行分布式计算。Dask允许无缝集成NumPy，而PySpark则将NumPy数组转换为RDD进行并行处理。这些方法对处理大规模数据至关重要。

# 分布式计算 # 并行计算 # 数据处理 # Spark # Python

4as3qn2go3ure

|

4天前

|

博文

R语言进行相关矩阵分析及其可视化

# 分布式计算 # 数据可视化 # 数据库 # Spark # 数据库管理

桃李春风一杯酒

|

8天前

|

博文

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 大数据 # Spark # Python

aliyun5297948689-49597

|

8天前

|

博文

|

来自：云原生

Spark核心原理与应用场景解析：面试经验与必备知识点解析

本文深入探讨Spark核心原理（RDD、DAG、内存计算、容错机制）和生态系统（Spark SQL、MLlib、Streaming），并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作，帮助读者准备面试，同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。

# 云解析DNS # 机器学习/深度学习 # SQL # 分布式计算 # Spark # 流计算

算精通

|

10天前

|

博文

Paimon与Spark

# SQL # 存储 # 缓存 # 分布式计算 # Spark

长梦

|

10天前

|

博文

|

来自：大数据与机器学习

Apache Spark：提升大规模数据处理效率的秘籍

【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性，包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧，如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍，可以提升大规模数据处理效率，发挥Spark在实际项目中的潜力。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # 数据处理 # Apache # Spark

TesterMuller

|

12天前

|

博文

人工智能，应该如何测试？（二）数据挖掘篇

在AI模型开发中，数据起着决定性作用，模型的性能往往受限于数据的质量和量级。建模工程师大部分时间都在与数据打交道，而中国在AI发展上与国外的主要差距并不在于计算能力，而是高质量的数据。测试人员不仅需要评估模型效果，也需要处理数据，包括数据采集、质量监控、构造、ETL（提取、转换、加载）和特征工程等。

# 机器学习/深度学习 # 数据采集 # 人工智能 # 分布式计算 # Spark