Spark

首页 标签 Spark
# Spark #
关注
9103内容
| |
来自: 数据库
X-Pack Spark归档POLARDB数据做分析
简介 POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。
Python数据预处理:使用Dask和Numba并行化加速
本文是针对Python设计一种并行处理数据的解决方案——使用Dask和Numba并行化加速运算速度。案例对比分析了几种不同方法的运算速度,非常直观,可供参考。
Java工程师该如何编写高效代码?| 12月18号云栖号夜读
今天的首篇文章,讲述了:世界上只有两种物质:高效率和低效率;世界上只有两种人:高效率的人和低效率的人。——萧伯纳。同理,世界上只有两种代码:高效代码和低效代码;世界上只有两种人:编写高效代码的人和编写低效代码的人。
Spark如何使用Akka实现进程、节点通信的简明介绍
Akka是一款提供了用于构建高并发的、分布式的、可伸缩的、基于Java虚拟机的消息驱动应用的工具集和运行时环境。
阿里云网络增强型云服务器计算型、通用型和内存型有什么区别?
阿里云网络增强型云服务器具有网络延迟低超强的网路收发包能力,网络增强型云服务器又分为计算型、通用型和内存型,那么三者有什么区别?新手站长网分享计算型、通用型和内存型网络增强云服务器的区别: 计算型、通用型和内存型之间的区别 计算型、通用型和内存型网络增强型云服务器的详细区别可以对比:ECS云服务器实例规格族官方详解 - 阿里云,官方有详细的对比说明: 相同之处CPU处理器:2.
开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
Hadoop开源生态Spark已经发展三年有余,今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上,Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性,以及其在数据工程以及数据科学方面带来的新技术。
| |
来自: 数据库
深入理解 Apache Spark Delta Lake 的事务日志
深入理解 Apache Spark Delta Lake 的事务日志 事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。
免费试用