Spark的搜索结果_第4页-阿里云开发者社区

探索云世界

|

6月前

|

博文

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

本文介绍了流利说与阿里云合作，利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司，通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点，采用EMR Serverless Spark后，实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力，支持多种接入方式与高效调度。迁移后任务耗时减少40%，失败率降低80%，成本下降30%。未来将深化合作，探索更多行业解决方案。

# 云原生数据仓库AnalyticDB MySQL版 # 函数计算 # 分布式计算 # 运维 # 监控 # Serverless # Spark

游客wkqymr43luqiu

|

6月前

|

博文

|

来自：大数据与机器学习

Spark RDD 及性能调优

RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换（Transformations）与行动（Actions），提供丰富的API支持复杂数据处理。执行模型涵盖用户代码到分布式执行的全流程，通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存，提升资源利用率。性能调优涉及资源配置、执行引擎优化及数据处理策略。Catalyst优化逻辑计划，Tungsten提高运行效率，而合理分区与缓解数据倾斜可显著改善性能。这些特性共同确保Spark在大规模数据处理中的高效表现。

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Java # 调度 # Spark

游客wkqymr43luqiu

|

6月前

|

博文

|

来自：大数据与机器学习

Apache Spark详解

Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Java/Python/R），并拥有强大的 Catalyst 优化器和类型安全的 Dataset API，广泛应用于大数据分析和处理场景。

# SQL # 分布式计算 # API # Apache # Spark

技术员阿伟

|

6月前

|

博文

《深度探秘：Java构建Spark MLlib与TensorFlow Serving混合推理流水线》

本文探讨了如何结合Apache Spark MLlib、TensorFlow Serving和Java构建混合推理流水线。Spark MLlib利用分布式计算高效处理大规模数据，完成模型训练；TensorFlow Serving专注于模型部署，提供稳定高效的推理服务；Java则以其稳健性协调两者，实现高性能与扩展性。文章分析了环境搭建、模型训练与集成、输入输出处理及性能优化等关键环节，并讨论了兼容性与性能瓶颈等挑战。这一架构在医疗、金融等领域具有广阔应用前景，展现了强大的技术潜力。

# 分布式计算 # Java # TensorFlow # 算法框架/工具 # Spark

赵渝强老师

|

7月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Scala编程语言

Scala 是一种集成面向对象与函数式编程特性的多范式语言，运行于 Java 平台并兼容 Java 程序。学习 Scala 为掌握 Spark 和 Flink 打下基础。本文通过视频讲解及代码示例，展示如何用 Scala 在 Spark 和 Flink 中实现 WordCount 程序，包括环境配置、数据处理及输出操作，帮助理解其实际应用。

# 分布式计算 # Java # Scala # 流计算 # Spark

游客u7dljxi6kiud6

|

7月前

|

博文

|

来自：数据库

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

Grab 是东南亚领先的超级应用，其 Spark 可观测平台 Iris 核心存储迁移到 StarRocks 后性能显著提升。新架构统一了实时与历史数据分析，减少多平台切换复杂性，查询速度提升 10 倍以上，资源使用效率提高 40%。通过物化视图、动态分区和直接 Kafka 摄取数据等优化，简化数据管道并降低运维成本。未来 Grab 将进一步增强推荐系统、集成机器学习，持续优化用户体验与系统可扩展性。

# 消息中间件 # 分布式计算 # 监控 # Spark # 时序数据库

阿里云大数据Al技术

|

7月前

|

博文

|

来自：大数据与机器学习

大数据& AI 产品月刊【2025年4月】

大数据& AI 产品技术月刊【2025年4月】，涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

# 云原生大数据计算服务 MaxCompute # 人工智能 # 分布式计算 # 大数据 # Serverless # Spark

Echo_Wish

|

7月前

|

博文

|

来自：大数据与机器学习

从Excel到高级工具：数据分析进阶指南

# SQL # 分布式计算 # 数据挖掘 # Spark # Python

Echo_Wish

|

7月前

|

博文

|

来自：大数据与机器学习

5G+大数据：这不是“快上加快”，而是“聪明加聪明”

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 运维 # 大数据 # 5G # Spark

算AI

|

8月前

|

博文

LLM用于科学假设生成：探索与挑战

产生新颖的科学假设和科研方向，是科学发现的重要前提；大语言模型生成科学假设已有不少探索，但仍面临诸多挑战

# 编解码 # 分布式计算 # 自然语言处理 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark