Spark的搜索结果_第5页-阿里云开发者社区

阿里云大数据

|

6月前

|

博文

|

来自：大数据与机器学习

阿里云大数据 AI 产品月刊-2026年1月

阿里云大数据& AI 产品技术月刊【2026年1月】，涵盖1月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

# 人工智能 # 分布式计算 # 大数据 # Serverless # Spark

阿里云大数据

|

6月前

|

博文

|

来自：大数据与机器学习

淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践：超大规模下的特征生产&多维分析双提效

本文介绍阿里云 Serverless Spark + Paimon 在淘宝闪购大数据湖仓场景的应用。

# 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # 数据建模 # Serverless # Spark

Echo_Wish

|

7月前

|

博文

|

来自：大数据与机器学习

别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧

# 机器学习/深度学习 # 缓存 # 分布式计算 # Spark # Python

阿里云大数据

|

7月前

|

博文

|

来自：大数据与机器学习

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark，体验“实时分析冠军”与“批处理之神”的极致性能表现！

# 开源大数据平台 E-MapReduce # 分布式计算 # Serverless # 测试技术 # Spark # 数据挖掘

游客7wkr3y7oxyt7a

|

7月前

|

博文

什么是批处理？批处理系统是怎么运转的？

本文深入浅出地解析批处理：它并非“老古董”，而是支撑报表生成、推荐系统、银行结算等关键业务的底层引擎。文章厘清其“积攒+批量执行”的本质，详解调度、计算、存储、容错四大核心组件，并以FineDataLink为例，展示如何通过可视化编排、内嵌Spark、多源接入与API发布，让批处理更高效、易用。

# 存储 # 分布式计算 # API # 调度 # Spark

游客fxfcnqx6ob4yg

|

7月前

|

博文

|

来自：大数据与机器学习

大数据与机器学习的定义

大数据指海量、高速、多样的信息集合，传统工具难以处理；机器学习是AI分支，能从数据中自动学习规律并决策。二者相辅相成：大数据为机器学习提供训练基础，机器学习则挖掘数据价值，推动金融、医疗、零售、工业等领域的智能化升级。核心技术包括Hadoop、Spark、TensorFlow等，未来趋势聚焦边缘计算、可解释AI与实时分析。

# 机器学习/深度学习 # 人工智能 # 分布式计算 # 大数据 # Spark

游客vv4u4wyick5ti

|

7月前

|

博文

完美应对千亿级明细数据计算：Aloudata CAN 双引擎架构详解

Aloudata CAN 双引擎架构的推出和生产级验证，标志着 NoETL 指标平台这一自动化数据开发与治理的新品类已经具备了处理企业级核心、极端负载的成熟能力。面对千亿级数据，企业无需再为“算不动”而焦虑，也无需在“灵活性”与“稳定性”之间做艰难取舍。

# SQL # 存储 # 分布式计算 # OLAP # Spark

Echo_Wish

|

7月前

|

博文

|

来自：大数据与机器学习

别再纠结了：Lambda 还是 Kappa？流批统一这件事，真没你想得那么玄乎

# 消息中间件 # 分布式计算 # Kafka # 流计算 # Spark

Echo_Wish

|

7月前

|

博文

|

来自：大数据与机器学习

别被“结构化”骗了：聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑

# 消息中间件 # 分布式计算 # Kafka # 流计算 # Spark

小白学大数据

|

8月前

|

博文

海量小说数据采集：Spark 爬虫系统设计

# 数据采集 # 存储 # 分布式计算 # 调度 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark