HIVE

首页 标签 HIVE
# HIVE #
关注
5953内容
利用 sparksession读取Parquet,Json格式文件
Spark支持的一些常见的格式: 文本文件:无任何的格式 json文件:半结构化 parquet:一种流行的列式存储格式 sequencefile:一种(k-v)的Hadoop文件格式.
【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎
本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。
ETL数据导入/导出工具 HData(支持JDBC、Hive、HDFS、HBase、Kafka等)
HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。
Hive架构
[toc] 概念 按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点: 使用SQL 数据仓库、管理数据集(表) 基于Hadoop Hive的组件包括HCatalog和WebHCat。
免费试用