Spark SQL练习2-电商用户行为分析
“**商城”电商平台需基于用户行为数据开展深度分析:一是计算用户活跃度趋势(含活跃天数、变化率及四类用户分层);二是构建RFM价值分层模型,量化R/F/M得分并划分高价值、潜力等四类用户;三是识别流失风险用户,分析其浏览时长变化与偏好品类。支撑精细化运营与精准营销。
PySpark入门教程(非常详细)从零基础入门到精通
本教程聚焦Spark Core核心原理,基于3.5.8版本,用Python详解RDD五大特性(分区、计算函数、依赖关系、分区器、首选位置)、容错机制、Shuffle、DAG调度及共享变量等,并通过WordCount实战演示。
诗悦游戏基于DLF与EMR StarRocks降本38%
诗悦网络(2014年成立)是千人规模的研运一体手游公司,代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》,其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维,总成本降38%,查询性能提升40%+,RPO=0,全面赋能实时/近实时/离线场景。
数仓-湖仓-湖流,人力家基于阿里云OpenLake架构演进与思考
人力家资深数据工程师石玉阳(Thorne),Flink-CDC Contributor,分享其公司湖仓一体实践:以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合,打通离线/实时/增量计算,支持多模态与DATA+AI演进,构建开放、统一、可持续的大数据架构。(239字)