Spark

首页 标签 Spark
# Spark #
关注
9133内容
|
3月前
|
技术深度报道:解析云器Lakehouse如何实现超越Spark 10倍性能提升
云器科技2024年末发布TPC-DS 10TB基准测试报告,Lakehouse引擎性能达Spark的10倍。核心源于四大技术:C++向量化引擎(3×)、Cascades成本优化器(2×)、DAG直连调度(1.3×)与自适应缓存(1.3×),实现全栈协同优化。(239字)
|
3月前
| |
来自: 数据库
OpenClaw「虾搞」数据库-杭州钳力场
在真实的企业级生产环境里,OpenClaw 到底能干嘛?是只会写两行 SQL 的“聊天机器人”,还是能真正钳住慢 SQL、自动巡检、搞定索引修复的“超级 DBA”?本场分享,我们玩企业级实战。将龙虾从“能跑”走向“敢用”,从“开源项目”迈向“企业基础设施”!
别再把大数据平台当“巨石”了:聊聊云原生时代的大数据平台怎么活得更久
别再把大数据平台当“巨石”了:聊聊云原生时代的大数据平台怎么活得更久
数据湖上跑模型训练?别再“豪横烧钱”了,这样优化性能和成本才靠谱
数据湖上跑模型训练?别再“豪横烧钱”了,这样优化性能和成本才靠谱
|
4月前
|
Spark SQL练习2-电商用户行为分析
“**商城”电商平台需基于用户行为数据开展深度分析:一是计算用户活跃度趋势(含活跃天数、变化率及四类用户分层);二是构建RFM价值分层模型,量化R/F/M得分并划分高价值、潜力等四类用户;三是识别流失风险用户,分析其浏览时长变化与偏好品类。支撑精细化运营与精准营销。
PySpark入门教程(非常详细)从零基础入门到精通
本教程聚焦Spark Core核心原理,基于3.5.8版本,用Python详解RDD五大特性(分区、计算函数、依赖关系、分区器、首选位置)、容错机制、Shuffle、DAG调度及共享变量等,并通过WordCount实战演示。
免费试用