hive
引用:http://www.oschina.net/p/hive/
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。
自定义分片策略解决大量小文件问题
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50771361
自定义分片策略解决大量小文件问题
@(Hadoop)
默认的TextInputFormat
应该都知道默认的TextInputFormat是一行行的读取文件内容,这对于一个或几个超大型的文件来说并没有什么问题,但是在实验读取大量小文件的时候,性能及其低下。
驯服数据巨兽:Hadoop如何重塑大数据的黄金时代
本文系统阐述Hadoop生态的演进逻辑:从应对数据爆炸催生的分布式架构,到HDFS、MapReduce、YARN等核心组件原理;涵盖Hive、HBase、Kafka、ZooKeeper等关键工具,以及Iceberg/Hudi数据湖革命、Kerberos安全体系与云原生融合趋势。全景展现“黄色大象”如何由单一体系蜕变为现代数据基础设施的无形基石。(239字)