Spark的搜索结果_热门_第16页-阿里云开发者社区

倒悬山的小平安

|

博文

快速体验Spark Connect

在Apache Spark 3.4中，引入了一个解耦的客户端-服务器架构的新模块Spark Connect，允许使用DataFrame API和未解析的逻辑计划作为协议远程连接到Spark集群。客户端

# 云解析DNS # 容器服务Kubernetes版 # 分布式计算 # Java # Apache # Spark # 容器

爱吃糖的范同学

|

博文

【Flink】Flink跟Spark Streaming的区别？

【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别？

# 实时计算 Flink版 # 分布式计算 # 大数据 # 数据处理 # 流计算 # Spark

FrancekChen

|

博文

Spark分布式内存计算框架

# 云原生大数据计算服务 MaxCompute # 资源管理 # SQL # 分布式计算 # Hadoop # Spark # 流计算

FrancekChen

|

博文

【数据采集与预处理】流数据采集工具Flume

# 数据采集 # 分布式计算 # Java # Spark # 流计算

翀举

|

博文

|

来自：大数据与机器学习

Spline部署&测试

Spline是Spark的元数据管理和血缘追踪工具，通过Docke部署。安装涉及下载docker-compose.yml和.env文件，使用`docker compose up -d`命令启动，包括rest-server（核心，处理血缘数据并存储在ArangoDB）、arangodb（多模型数据库）、ui（Web服务）等组件。测试中使用pyspark进行血缘捕获，通过spark-submit命令指定Spline相关依赖并连接到Spline服务器。成功后，血缘数据可在Spline UI中查看。未来计划在DolphinScheduler上测试Spark SQL任务并启用血缘追踪。

# 分布式计算 # API # Spark # Docker # 容器

wljslmz

|

博文

解释弹性分布式数据集（RDD）的概念

【8月更文挑战第13天】

# 存储 # 分布式计算 # 数据处理 # API # Spark

技术小达人

|

6月前

|

博文

官宣｜Apache Paimon 1.0 发布公告

# SQL # 分布式计算 # 流计算 # Spark # 索引

探索云世界

|

3月前

|

博文

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

本文介绍了流利说与阿里云合作，利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司，通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点，采用EMR Serverless Spark后，实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力，支持多种接入方式与高效调度。迁移后任务耗时减少40%，失败率降低80%，成本下降30%。未来将深化合作，探索更多行业解决方案。

# 云原生数据仓库AnalyticDB MySQL版 # 函数计算 # 分布式计算 # 运维 # 监控 # Serverless # Spark

瓴羊Dataphin

|

博文

Dataphin x Iceberg 开箱即用的数据湖治理解决方案

Apache Iceberg作为新一代开源数据湖表格式，具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成，通过全链路适配与性能优化，为企业提供开箱即用的数据湖治理方案，涵盖数据源支持、离线与实时数据集成、数据研发等核心模块，助力构建现代化数据架构。

# SQL # 分布式计算 # Apache # HIVE # Spark

技术小哥哥

|

博文

IntelliJ IDEA（Community版本）的下载、安装和WordCount的初步使用（本地模式和集群模式）

# 分布式计算 # Java # Scala # Android开发 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark