Parquet文件结构笔记
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下Parquet数据结构到底是什么样的呢?
一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。
虚拟机中Linux(Ubuntu16.04)与本地Win7共享文件夹
虚拟机中Linux(Ubuntu16.04)与本地Win7共享文件夹
一、前面的废话
在虚拟机里装了系统之后想要在系统里安装软件真的是很头疼的事,因为在虚拟机里面下载东西比较慢,来回折腾U盘也很麻烦,尤其是如果你需要在虚拟机里的好几个系统里装相同的软件,那更是能急死人,但如果虚拟机里的系统能访问本地系统的话就太棒了,在本地系统下下载一份需要的文件,在所有虚拟机里都能用,真的省去了很多麻烦。
大数据技术解析:Hadoop、Spark、Flink和数据湖的对比
Hadoop、Spark、Flink 和数据湖都在大数据处理领域有着重要的地位,但它们各自的优势和劣势也需考虑实际应用场景。Hadoop 适用于批处理任务,Spark 更适合实时分析,而 Flink 则强调低延迟的流式处理。数据湖则是存储和管理大规模多样性数据的选择。