今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》
这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。
这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。
像Flink中非常重要的分布式一致性协议,使用的是两阶段提交协议,这本书中就详细介绍了两阶段提交协议的原理,如下为书中截图:
还有像比特币中用来进行交易验证的Merkle树,书中也有详细介绍,Merkle树在亚马逊的Dynamo数据库中也有广泛应用
在Hive中常用 orc 格式 + snappy 压缩是比较常用的存储加压缩格式,书中也有详细介绍压缩算法Snappy
书中还有很多大数据组件底层算法及原理,就不一一举例了
给大家截取部分目录看下