Spark

首页 标签 Spark
# Spark #
关注
9110内容
Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
从“攒一锅再算”到“来一条就干一条”:大数据批处理到流处理的进化之路
从“攒一锅再算”到“来一条就干一条”:大数据批处理到流处理的进化之路
|
23天前
|
PySpark实战:亿级爬虫数据的高效处理指南
PySpark助力高效处理亿级爬虫数据,支持分布式清洗、转换与分析。具备弹性扩展、内存优化、多格式兼容等优势,结合Spark生态实现TB级数据全流程处理,提升大规模数据处理效率与系统稳定性。
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
|
3月前
| |
来自: 数据库
数据湖技术选型指南:Iceberg vs Delta Lake vs Paimon
对比当前最主流的三种开源湖格式:Iceberg、Delta Lake 和 Paimon,深入分析它们的差异,帮助大家更好地进行技术选型。
|
3月前
|
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
免费试用