软件介绍 | 学习笔记

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 快速学习 软件介绍

开发者学堂课程【Sqoop 企业级大数据迁移方案实战软件介绍学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/718/detail/12832


软件介绍


内容介绍:

一、Apache sqoop 介绍

二、底层工作机制展现

三、知识点总结与补充


一、Apache sqoop 介绍

Apache sqoop 在大数据的出现通常是为了满足我们在两个体系中的数据流入,流出,一个体系叫做 Hadoop 生态体系比如说:HBMS、hive 数据仓库、hfds 这样纯数据的体系。另外一个 RDBMS 体系代表着关系型数据库:比如说Mysql,在企业当中支持我们的业务纯熟的数据

当需要在两个数据集之间做导入导出时该如何完成?

首先选择可以人为的去做,但是没有有工具时操作便利。所以 Apache sqoop 的目的便是作为工具出现。

作为在大数据中满足我们在两个体系中的数据流入,流出的工具。

如下图

image.png

左侧代表关系型数据库 RDBMS 体系,另外一边为 Hadoop file 生态系统 HDFS hive,这两个体系之间涉及到数据的流转即可用 Apache sqoop 完成。

此时便涉及到一个问题导入导出是一个相对的过程,那从哪里到哪里叫做导入,从哪里到哪里叫做导出呢?

可观察上图,从左边关系型数据库 DBMS 体系到 import

此时有一个小技巧 Apache sqoop 属于 Apache 配置,而 Hadoop file 生态系统大多数软件也属于 Apache 配置,因此可以站在 Apache 官方立场来看,数据导入我方。叫做导入,反之,数据从我方出去叫做导出。

那么在这两个体系之间进行数据的导入导出,在底层则是借助的 mapredure 程序完成的,也就是说当去敲一个Hadoop 的命令,编辑好所需完成的工作,此时 Hadoop 底层会转变为 mapredure 程序,此时可以做数据的输入,在做数据的输出,此时正好符合数据导入导出的过程,只不过在进行导入导出所采用的 mapredure 程序与平时所采用的程序已经发生了改变,这是所使用的 mapredure 程序在默认情况下,使用 text。

此时当他读数据库时无论是读或者写去使用 text 则无法满足需要使用 inputfrom 和 outputfrom 进行定制来满足关系型数据库的对接。

因此可将图复制出来,进行数据的描述,


二、底层工作机制展现

首先明确数据在左边体系为关系型数据库,最重要的概念为支持事务,面向事务,而在在右边的体系为 hadoop 生态体系,不管是 HDFS 还是 HBase 最终均依赖该系统,在两体系之间,如果数据来到 Apache sqoop 当中,此过程叫做数据的导入,当他进行数据导入,底层通过 mapredure 程序完成,在左侧读取时,则进行分类,叫做DBinputformat ,从命名可看出 DB 表明可进行读取数据库中的表,在输出时,默认 text out putFprmat。此时完成了数据的导入导出,

此时数据如果呈相反的过程,数据的导出,依然底层通过 mapredure 程序完成,此时因为导出需要独自编写数据,因此需要 TextInputFormat,所以读数据时变成了文本形式,此时向外写数据时叫做 DBoutputFormat,此为 sqoop 底层工作机制

image.png


三、知识点总结与补充

因此在完成 sqoop 数据导入导出时前提是保证  mapredure 程序开发环境可以正常运行,则可保证导入导出的正常运行。

sqoop 全程为 sql hadoop hadoop SQL

Apache sqoop 提供的一款很好的辅助软件,当涉及到在两个体系中的数据流入,流出时可借助 sqoop

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
前端开发 计算机视觉 Python
浅蓝色代表什么颜色?——Python中的颜色表示与处理
本文介绍了浅蓝色在计算机图形和Web开发中的表示方法,包括RGB、十六进制和HSL三种常见格式,并详细说明了如何使用Python的Pillow和colorsys库来处理和转换这种颜色,最后给出了生成浅蓝色背景的CSS代码示例。
973 6
|
并行计算 安全 量子技术
量子计算安全性:保护信息的新途径
量子计算以其强大的计算能力和独特的量子特性,为数据加密和信息安全提供了全新解决方案。本文探讨了量子计算的基本原理、安全优势及保护信息安全的新途径,如量子密钥分发、量子安全协议等,展望了量子计算在信息安全领域的应用前景。
|
传感器 数据采集 机器学习/深度学习
人工智能与环境保护:智能监测与治理的新策略
【9月更文挑战第21天】人工智能在环境保护中的应用,为智能监测与治理提供了新的策略和方法。通过实时数据采集与分析、智能预警与应急响应、精准化决策支持等技术的应用,AI正在引领一场革命性的变革。未来,随着技术的不断发展和应用场景的拓展,AI将在环境保护中发挥更加重要的作用,助力我们构建更加绿色、可持续的未来。让我们携手共进,共同迎接一个更加美好的明天。
|
10月前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
455 10
|
SQL 安全 Android开发
安卓应用开发中的常见安全漏洞及预防措施
【7月更文挑战第25天】在安卓应用的开发过程中,安全性是不容忽视的一环。本文将介绍几种常见的安全漏洞并探讨如何通过合理的编码实践和工具来预防这些漏洞,帮助开发者提高应用的安全性。
|
数据管理 程序员 数据处理
利用Python自动化办公:从基础到实践####
本文深入探讨了如何运用Python脚本实现办公自动化,通过具体案例展示了从数据处理、文件管理到邮件发送等常见办公任务的自动化流程。旨在为非程序员提供一份简明扼要的实践指南,帮助他们理解并应用Python在提高工作效率方面的潜力。 ####
|
11月前
|
自然语言处理 数据可视化 BI
多部门协作难题有解!推荐几款实用的企业协作平台
在现代商业环境中,高效协作工具对于团队成功至关重要。本文推荐5款协作平台:板栗看板、Trello、Asana、Monday.com和ClickUp,它们分别在任务管理、实时沟通、数据安全等方面表现出色,帮助企业实现高效管理,提升项目成功率。选择合适的工具,可以显著提高团队效率和协作效果。
496 0
|
人工智能 自动驾驶 安全
AI与未来生活:技术如何重塑我们的世界
在这篇文章中,我们将深入探讨人工智能(AI)如何改变我们的生活方式。从智能家居到自动驾驶汽车,从虚拟助手到医疗诊断,AI正在逐步渗透到我们生活的方方面面。我们将看到AI如何提高我们的生活效率,改善我们的生活质量,甚至帮助我们解决一些看似无法解决的问题。然而,我们也将讨论AI带来的挑战和道德问题,以及我们需要如何应对这些问题。最后,我们将展望AI在未来可能的发展趋势,以及它可能带来的更深远的影响。
|
机器学习/深度学习 人工智能 搜索推荐
人工智能对我们的生活影响有多大?
人工智能对我们的生活影响有多大?
495 1