【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎
本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。
Hive架构
[toc]
概念
按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点:
使用SQL
数据仓库、管理数据集(表)
基于Hadoop
Hive的组件包括HCatalog和WebHCat。