Spark

首页 标签 Spark
# Spark #
关注
9106内容
Apache Spark详解
Apache Spark 是一个开源、分布式计算引擎,专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性,大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX,支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型,支持多语言(Scala/Java/Python/R),并拥有强大的 Catalyst 优化器和类型安全的 Dataset API,广泛应用于大数据分析和处理场景。
|
4月前
|
《深度探秘:Java构建Spark MLlib与TensorFlow Serving混合推理流水线》
本文探讨了如何结合Apache Spark MLlib、TensorFlow Serving和Java构建混合推理流水线。Spark MLlib利用分布式计算高效处理大规模数据,完成模型训练;TensorFlow Serving专注于模型部署,提供稳定高效的推理服务;Java则以其稳健性协调两者,实现高性能与扩展性。文章分析了环境搭建、模型训练与集成、输入输出处理及性能优化等关键环节,并讨论了兼容性与性能瓶颈等挑战。这一架构在医疗、金融等领域具有广阔应用前景,展现了强大的技术潜力。
【赵渝强老师】Scala编程语言
Scala 是一种集成面向对象与函数式编程特性的多范式语言,运行于 Java 平台并兼容 Java 程序。学习 Scala 为掌握 Spark 和 Flink 打下基础。本文通过视频讲解及代码示例,展示如何用 Scala 在 Spark 和 Flink 中实现 WordCount 程序,包括环境配置、数据处理及输出操作,帮助理解其实际应用。
|
5月前
| |
来自: 数据库
从InfluxDB到StarRocks:Grab实现Spark监控平台10倍性能提升
Grab 是东南亚领先的超级应用,其 Spark 可观测平台 Iris 核心存储迁移到 StarRocks 后性能显著提升。新架构统一了实时与历史数据分析,减少多平台切换复杂性,查询速度提升 10 倍以上,资源使用效率提高 40%。通过物化视图、动态分区和直接 Kafka 摄取数据等优化,简化数据管道并降低运维成本。未来 Grab 将进一步增强推荐系统、集成机器学习,持续优化用户体验与系统可扩展性。
大数据& AI 产品月刊【2025年4月】
大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
6月前
|
LLM用于科学假设生成:探索与挑战
产生新颖的科学假设和科研方向,是科学发现的重要前提;大语言模型生成科学假设已有不少探索,但仍面临诸多挑战
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
免费试用