Spark的搜索结果_热门_第11页-阿里云开发者社区

郑小健

|

3月前

|

博文

|

【8月更文第28天】随着大数据技术的发展，Hadoop已经成为处理大规模数据集的重要工具。同时，机器学习作为一种数据分析方法，在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集，并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。

# 机器学习/深度学习 # 存储 # 分布式计算 # Hadoop # Spark

土木林森

|

8天前

|

博文

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Hadoop # 大数据 # Spark

kng32f3vbngrm

|

6月前

|

博文

|

来自：大数据与机器学习

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

# SQL # 缓存 # 分布式计算 # HIVE # Spark

公众号胖滚猪学编程

|

博文

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

本文梳理了常见的hadoop生态圈中的组件：Hdfs+Yarn+HBase+Spark+Storm的单点故障问题，出现原因以及单点故障的原理和解决方案（构建HA（High Available）高可用架构）。阅读本文之前，最好了解清楚各组件的架构原理。

# 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 微服务引擎 # 日志服务 # 机器学习/深度学习 # 分布式计算 # 大数据 # 分布式数据库 # Hbase # Spark # 资源调度 # 流计算 # 负载均衡 # 网络安全

黯灭_邓彬

|

博文

|

来自：大数据与机器学习

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区！社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励 Spark社群钉钉群

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark

JasonLee实时计算

|

博文

在idea里面怎么远程提交spark任务到yarn集群

很久没有更新了,因为最近一段时间有点小忙,最近也是有同学问我说自己在idea里面写spark程序测试,每次都要打包然后上传到集群,然后spark-submit提交很麻烦,可不可以在idea里面直接远程提交到yarn集群呢? 当然是可以的,今天就给大家分享一下具体的操作过程. 那先来说一下spark任务运行的几种模式: 1,本地模式,在idea里面写完代码直接运行.

# 超级计算集群 # 云消息队列 Kafka 版 # 消息中间件 # 资源调度 # 分布式计算 # 监控 # Java # Kafka # 网络安全 # Spark

demo123567

|

6月前

|

博文

在scala中使用spark

# SQL # 存储 # 分布式计算 # Scala # Spark

FrancekChen

|

6月前

|

博文

Spark编程实验一：Spark和Hadoop的安装使用

# 存储 # 分布式计算 # Hadoop # Linux # Spark

郑小健

|

3月前

|

博文

|

来自：大数据与机器学习

Hadoop生态系统概览：从HDFS到Spark

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。

# 存储 # 分布式计算 # 资源调度 # Hadoop # Spark

阿里云实时计算Flink

|

博文

|

来自：大数据与机器学习

FeatHub：流批一体的实时特征工程平台

本次分享中，将介绍 FeatHub，一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计，已经完成的工作，以及近期的发展计划。

# 实时计算 Flink版 # 云消息队列 Kafka 版 # 云数据库 Tair（兼容 Redis） # 机器学习/深度学习 # 存储 # 消息中间件 # 分布式计算 # 监控 # Kafka # 开发工具 # 流计算 # Spark # Python

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark