开发者学堂课程【Sqoop 企业级大数据迁移方案实战:安装部署】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/718/detail/12833
安装部署
内容介绍:
一、sqoop 安装
二、 安装验证
一、sqoop 安装
sqoop 的安装和根据自带的软件检测安装是否成功
由于再进行数据的导入导出时,底层是根据 mapredure 程序,所以在安装前必须保证 java 和 hadoop 环境是正常的,并成功启用。
采用最稳定的 sqoop 版本:1.4.6 从16年开始便不在改动,侧面反映稳定性。
点击 sqoop 安装包,并将其上传到服务器中常见目录,/export/servers 进行上传。
上传完成后,根据配置进行修改,sqoop 的安装过程简单,由于并不是分布式的软件只需要在它的配置下做好环境脚本的变量即可,需要配置 sqoop 与其相关的配置目录,可以找到即可,所以说使用起来非常方便。首先采用 tar zxvf 命令对 sqoop 进行解压,到当前目录下,完成后为了方便,可以把这个解压后的文件夹做一个简单的重命名,比如说通常把它命名为叫做 sqoop。cd 到实物当中,
那接下进行演示,首先这个目录结构和 apache 的软件基本上类似。
目录结构存在启动关闭相关的脚本和命令之类的。
接下来我们 cd 到 conf 当中。这时候需要要查看,发现 sqoop 这个软件跟其他大数据软件类似。都需要一个叫做的env,一个现有脚本文件里面导入环境变量。
但是要注意。他官方提供的脚本上面有一个叫做 template 模板。表示,所以要把这一串符号给它去掉,默认识别 sqoop-env
第一步把这个脚本它给的这个事例做一个重命名,进行移动,在移动的过程当中,把中间的 temple 的-2给它删除,一定要心细,那么这样它就可以默认加载识别,接下来我们是用 VR 编辑器针对我们这个软件把这个脚本做一个相关的修改,那么在这当中主要去修改几个 sqoop 生态体系的一个环境变量啊加 home 所在的路径。
看第一块,这里是叫做好都不 common -home,下面有个好都不 HADOPP-maped -home,,此时可能感到疑惑,好像没有配置这些, 其实在上面它有做一个解释,大家可以看一下,第一个 common -home 它所指的是设置路径,定好 hadoop 可用的路径,另外一个 map-home 指的是这个 hadoop 价包可用的路径。
那么为什么会有这两个区分?
在去安装 sqoop 的时候选择,那么如果使用是官方版本或者自己编译的版本呢,通常安装的各个模块可能是在同一个路径下。
那如果使用的是一些商业版本第三方版本,可能会把好的和不同的模块安装在不同的路径下,那么这时候就要去分别指定。
以我们来说我们安装的是 hadoop,所以说这两个环境变量指向的都是我们的都安装的加目录,就是 export 下的server,那接下来来做一个修改。
首先第一件事把我们每个配置前面的注释给它删除,做一个删除,看一下颜色也发生了变化,那找一台机器来看一下,没有出错,所有的软件都是在 export 的 server 路径下,好多可能是用这个路径,可以来复制一下,这就是Hadoop 的所有的一个模块,各个模块都在这一个路径下,因此这里做一个简单复制。一个同样道理,下面这一个也是做一个复制,复制之后呢把前面的井号注释给它打开,那么下面 HBASE 我们当下先做一个集成,但是 HBASE 现在需要使用啊把还有给它集成过来,在同一个路径下,我们 CD 返回上一级看一下,然后 Cd 到我们的还有 应该是这一层目录,大家要结合自己的环境给它配置好,那么接下来下面是的配置,主要是跟主线的相关配置的使用,这里也涉及不到,那因此在这里主要以 conf hodaood 和 hive 为例来看一下数据的导入和导出,那么其他类似的配置好之后,确认无误,给它做一个保存:Conf zz
那么保存完成之后,如果你不放心,你可以再使用 cat 命令做一个查看,确保它是正常的
如上 sqoop 的架构图,右边这一块好的生态体系相关的路径配置清楚了,那么左边这一块该怎么去配置 那么在这里呢以 my sql 为例,mysql 也是众多关系型数据库当中一种,而且在当下企业当中用的比较多,那么针对 MySQL 的访问导入导出,这时候啊我们 sqoop 就相当于 MySQL 的一个客户端了,
它底层需要调用数据去访问,把见 dbc 的驱动包上传到 sqoop 的一个 live 路径下,那么目录的这身后的 GP 包当中有获得一种你的文件系统去找都可以。接下来打开这台机器克隆一个窗口,CD 到的 expo 的 server have 路径下,那么在 have 的内部路径下,应该是具有我们的买手驱动包,所以说这里做一个 CP 复制,注意啊不要用 MV 移动,因为你一旦移动的话是 h5的驱动模就没有了,那么我们这个路径下 my circle connect Java 移动到哪里 移动到 server路径下叫做 sqoop 路径下的当中,那么这样就保证了,实库也具备了所谓的蚂蚁、搜狗连接驱动,这个小大要注意,当然如果从本地上传呢也是可以搞定。
二、安装验证
做好这些之后,基本上就可以把 sqoop 给它配置好了,接下来可以使用它官方带的一个命令来验证,是否可以启动成功安装成功
这个命令干什么?叫做 list data basis 是用实库去连接到 max 档,然后呢去显示一下它的数据库,那么如果能够成功显示 ICO 当中所有数据库,那意味着我们售后配置正常,那否则就需要进行相关的调整,可能哪里就有错误了。 那么在执行这个命令之前,通常来说有几种操作可以操作,第一个比如说为了方便,以后想在任何一个路径下执行,这时候呢你可以按照其他软件样给它配置一个环境变量,叫做 sqoop 那么你也可以呢不配置往里面量来到它的根目录软件安装中,直接用并下的目标进行启动,这个根据个人习惯来进行相关的配置。那么这里还有一个产品需要注意,针对sqoop 的脚本命令,不管是导入导致还是各种验证,他要求后面佩戴的所有参数必须在一行当中出现,那么如果不在一行书呢它就会换行就会自动执行。 那有的时候我们面临特别特别长的怎么避免这个问题?大家看一下,在每个命令的最后面,是不是有一个斜杠 / ,那么这个反斜杠 / 就在键盘的回车键上方英文状态下,
那么这个符号表示的就是什么?
到这里先不要执行,还没有输完下一行,还有就是这一行太长命令太长了,输不完那么如果你不加这个符号,那么当你一回撤它就会自动执行就出错了,所以要搞清楚这些小细节,那看一下这个命令的意思,定下的职务命令要连接显示数据库,告诉地址,所以告这个连接地址有决定笔录协议,访问的3306端口的用户名和密码,那么这里 Logo house 的,如果你本机完了可以有 logo house 的,那么其他机器人可以指定我们的 IP,因此我们在这里边做一个修改,把它给复制过来,然后打开我们的笔记,在这里我们做一个相关的操作,叫做是速度安装验证。
比如首先把后面的这个符号给它去掉,看看会有什么效果,来直接复制这个命令。在数据库,创建一站式,此时没有做任何操作,把它复制过来之后,发现上面开始执行了,执行完之后呢后面你发现报各种错误缺少参数,缺少参数,为什么?因为当他碰到第一个回撤的时候他就开始执行了,所以这就是一个小问题,所以你要么把它这样写在一行当中,要么你写不完,后面加上一个反斜杠回撤?让他告诉我们还没有结束,你先别执行,重新执行结果,
下面就显示出来了我们当前 mysql 它所拥有的数据库,MySQL 数据库,那么到底对不对?你可以使用 MySQL 的客户端来做个验证,打开桌面上的 nav 的连接到机器上,你发现它的数据库也是这么多,
那说明实物库跟 MAC 对接没有任何的问题,这样就完成了安装,其他的后面导出就是在这个基础之上做相关命令的修改即可,一定要保证 java 和 hadoop 环境是正常的