Spark的搜索结果_文章_第3页-阿里云开发者社区

Echo_Wish

|

5月前

|

博文

|

来自：大数据与机器学习

你以为大数据只是存？其实真正的“宝藏”藏在这招里——数据挖掘！

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 数据挖掘 # 大数据 # Spark

游客wkqymr43luqiu

|

5月前

|

博文

|

来自：大数据与机器学习

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

# SQL # JSON # 分布式计算 # Spark # 数据格式

Echo_Wish

|

6月前

|

博文

|

来自：大数据与机器学习

别再云里雾里了！一文带你整明白Hadoop生态到底是啥玩意儿

# SQL # 分布式计算 # Hadoop # HIVE # Spark

大熊计算机

|

6月前

|

博文

|

来自：大数据与机器学习

用 Spark 优化亿级用户画像计算：Delta Lake 增量更新策略详解

在亿级用户画像计算中，传统全量更新面临数据量大、更新频繁、延迟敏感等挑战。本文详解如何结合 Spark 与 Delta Lake 实现高效增量更新，通过仅处理变化数据，显著降低资源消耗并提升实时性，助力构建高性能用户画像系统。

# JSON # 分布式计算 # 搜索推荐 # Spark # 数据格式

青云交（Java大数据AI云原生Python）

|

6月前

|

博文

|

来自：大数据与机器学习

Java 大视界 —— 基于 Java 的大数据分布式计算在气象数据处理与天气预报中的应用进展（176）

本文围绕基于 Java 的大数据分布式计算在气象数据处理与天气预报中的应用展开，剖析行业现状与挑战，阐释技术原理，介绍其在数据处理及天气预报中的具体应用，并结合实际案例展示实施效果。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Java # 大数据 # 数据处理 # Spark

游客2cgvtedhdpwze

|

6月前

|

博文

19章构建企业级大数据平台：从架构设计到数据治理的完整链路

开源社区：贡献者路径：从提交Issue到成为Committer 会议演讲：通过DataWorks Summit提升影响力标准制定：白皮书撰写：通过DAMA数据治理框架认证专利布局：通过架构设计专利构建技术壁垒

# 云原生大数据计算服务 MaxCompute # 存储 # SQL # 分布式计算 # 数据安全/隐私保护 # Spark

大熊计算机

|

6月前

|

博文

|

来自：大数据与机器学习

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

# 云原生大数据计算服务 MaxCompute # 人工智能 # 分布式计算 # 大数据 # 数据挖掘 # Spark

探索云世界

|

6月前

|

博文

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 人工智能 # 分布式计算 # DataWorks # Serverless # Spark

探索云世界

|

6月前

|

博文

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

本文介绍了流利说与阿里云合作，利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司，通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点，采用EMR Serverless Spark后，实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力，支持多种接入方式与高效调度。迁移后任务耗时减少40%，失败率降低80%，成本下降30%。未来将深化合作，探索更多行业解决方案。

# 云原生数据仓库AnalyticDB MySQL版 # 函数计算 # 分布式计算 # 运维 # 监控 # Serverless # Spark

游客wkqymr43luqiu

|

6月前

|

博文

|

来自：大数据与机器学习

Spark RDD 及性能调优

RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换（Transformations）与行动（Actions），提供丰富的API支持复杂数据处理。执行模型涵盖用户代码到分布式执行的全流程，通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存，提升资源利用率。性能调优涉及资源配置、执行引擎优化及数据处理策略。Catalyst优化逻辑计划，Tungsten提高运行效率，而合理分区与缓解数据倾斜可显著改善性能。这些特性共同确保Spark在大规模数据处理中的高效表现。

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Java # 调度 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark