Apache Sqoop是一个用于在Apache Hadoop和关系数据库等结构化数据存储之间高效传输大容量数据的开源工具。主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。此外,对于某些NoSQL数据库Sqoop也提供了连接器。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
类似于其他ETL工具,Sqoop使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
资料来源:
sqoop官网 http://sqoop.apache.org/
于金良, 朱志祥, 梁小江. 一种基于Sqoop的数据交换系统[J]. 物联网技术, 2016, v.6;No.61(03):42-44.
Rallapalli S , Minalkar A . Map Reduce Programming for Electronic Medical Records Data Analysis on Cloud Using Apache Hadoop, Hive and Sqoop[C]// International Conference on It Convergence & Security. IEEE Computer Society, 2015.