TIS借力阿里云 JindoFS 快速实现云上数据集成分析

本文涉及的产品
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
容器镜像服务 ACR,镜像仓库100个 不限时长
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 利用TIS 借力阿里云 Jindo 快速实现云上数据集成分析,为用户提供免维护、费用低廉、稳定、高效的数仓服务。

什么是Jindo

JindoFS 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 在开源基础上做了大量优化和扩展, 深度集成和连接了众多阿里云基础服务。
JindoFS 完全兼容 Hadoop 文件系统接口,为阿里云 EMR 中所有的计算服务和引擎: Spark、 Flink、 Hive、 MapReduce、 Presto、 Impala 等提供底层存储服务。JindoFS 有两种使用模式, 块存储模式(BLOCK)和缓存模式(CACHE)。

JindoFS比传统的 Hadoop 基于文件系统的HDFS有如下优势:

  1. 免维护

    这个是所有云上PAAS服务的天然优势,在阿里云上只需轻点鼠标就能把一个快速启动一个数仓服务,并且阿里云为数仓提供健全的实时监控能力,为用户的业务系统保驾护航。

  2. 费用低廉

    由于阿里云上Jindo底层直接使用OSS来作为存储介质,使用过OSS的同学都知道它价格非常便宜,平时生产环境中经常用它来作备份存储,冷热分离都在使用它。
    且使用中随着容量扩大可以做到弹性扩容对上层使用无感知。

  3. 稳定、高效

    JindoFS 底层直接使用C++调用操作系统native code,免去了JAVA的GC问题,因此响应更快。
    JindoFS通过 内部服务组件JindoStorageService 实现存储节点高效本地缓存,比传统的HDFS性能有大幅提升。在扩缩容方面,由于StorageService 来管理节点上的存储,保证了数据在 OSS 上有一副本,因此对于节点迁移、 节点下线等场景, JindoFS 无需复杂副本计算, 通过快速的“ 标记” 即可完成下线。
    避免传统 HDFS运维方式那样的,通常一个存储节点的下线需要小时级别的等待才能完成,基本可以实现秒级完成扩缩容。

什么是TIS

TIS是一款面向大数据集成的端到端的基于UI界面的数据集成产品,已经实现了多种类型数据节点之间的数据批量与增量同步功能。相较于其他同类型的产品有显著优势:

  1. 轻量化、安装简单
  2. 基于UI使用方便,开箱即用
  3. 基于DataOps,内部经过数据建模,大量执行脚本会自动生成,用户毋需关注底层细节

由于Jindo使得在云上使用分布式离线分析计算比私有云中基于传统HDFS的离线分析高效且经济,使得大量用户正在将自建私有云离线数仓迁移到云上数仓。
这个想法是不错,但就像给猫脖子上套铃铛的方案一样,能想出这个办法的小老鼠固然是聪明的,关键是怎么把铃铛挂到猫脖子上去呢?

偶然间发现了TIS,让使用阿里云EMR基础设施变得简单了。用户在阿里云上申请好EMR,Hive,等基础设施,后面的工作就交给TIS了。

下图是TIS 支持的 源端和目标端类型:
aliyun-jindo.png

具体操作

准备阿里云EMR环境

使用场景中需要用到阿里云EMR的Hive环境,我们需要在阿里云上注册两个服务资源。

  1. 阿里云OSS

    由于EMR Hive使用阿里云OSS作为JindoFS的存储层,因此我们需要先申请阿里云OSS资源,申请地址

    add-oss-bucket.png

    如上图所示,申请OSS资源步骤中需要将HDFS服务功能选项打开,可以让EMR Hive将Hive元数据写入到OSS中

  2. 阿里云EMR

    申请 阿里云EMR 申请地址

    add-emr.png

在选取EMR服务节点步骤,需要将节点的公网挂载打开,这样可以公网访问。另外,服务节点ECS对应的安全组需要将 908310000 两个端口打开,以便从公网访问阿里云EMR Hive服务。

add-emr-node-set.png

动手部署

准备好了依赖的资源后,接下来向大家介绍 如何创建从MySQL 到 Aliyun EMR Hive的数据同步通道。

  1. 定义通道基本信息

    add-datax-profile.png

  2. 选择数据通道 Source和Sink 端类型

    add-datax-type.png

    如上图源端和目标端分别选择 MySQLHive类型

  3. 设置源端MySQL配置信息

    add-datax-mysql-reader.png

  4. 从源端MySQL中选择同步表

    add-datax-mysql-reader-select-tabs.png

  5. 定义阿里云 EMR Hive 资源配置

    add-hiveserver.png

  1. 定义JindoFS服务引用:

    add-jindofs.png

  2. 定义 EMR Hive目标(Sink)端:

    add-hive-sink.png

    通过上图演示,EMR Hive目标(Sink)端页面可以设置:

    1. EMR Hive 分区保留数

      TIS每次导入,会自动判断目标端的Hive表是否存在?如果不存在TIS会自动创建表。每次导入目标端表后会自动在表上创建一个分区,然后数据分区是要占用存储空间的,不能无限制的增加分区,需要设置一个分区上限,每次将历史分区最旧的分区drop掉

    2. partitionFormat(分区格式)

      每次新建的分区使用的时间格式,可以是yyyyMMddHHmmss或者是yyyyMMdd

    3. fileType(文件格式)

      Hive 对应的文件Format(也就是存放在JindoFS上的文件格式),目前可以选择两种最通用的格式,CSVTEXT格式,将来还可以扩展其他存储格式,如:ORCParquet

  3. 触发数据通道同步任务

    终于完成数据通道创建,接下来触发同步任务执行

    trigger-sync.png

    最终,我们可以进入EMR管理后台通过执行SQL 查询导入到EMR Hive中的数据

总结

凭借云上JinDoFS提供的诸多优势,使得越来越多的在传统私有云中构建数仓的企业开始将数仓迁移到云上数仓。
通过TIS提供的一站式,快捷基于DataOPS理念开发的数据集成产品,为用户高效且低成本使用云上设置提供有效手段。用户使用TIS过程中,不需要关注底层技术细节,例如:

  1. 不需要关系源表的表自动类型,TIS会帮你自动创建Hive表。
  2. 自动维护将Hive目标表的历史分区,自动淘汰老历史分区
  3. 自动分配导入过程中,任务调度资源分配。
  4. 支持多种Hive 表的文件格式,提供方便的文件格式扩展机制

以上这些TIS的特点,都大大降低了 阿里云EMR 的使用门槛。

另外,TIS为用户实现云中立使用数仓服务提供了可能。用户如扩展海外市场,海外部署如选择使用亚马逊AWS来构建数仓服务,在亚马逊AWS上提供了类似阿里云EMR的基础设置,
TIS中同样提供亚马逊AWS 数仓服务的插件,这样就可以将TIS作为数仓服务的门面(Facade模式)提供统一的用户体养来操作各云平台。

相关资源

目录
相关文章
|
9天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
2月前
|
SQL 数据可视化 关系型数据库
MCP与PolarDB集成技术分析:降低SQL门槛与简化数据可视化流程的机制解析
阿里云PolarDB与MCP协议融合,打造“自然语言即分析”的新范式。通过云原生数据库与标准化AI接口协同,实现零代码、分钟级从数据到可视化洞察,打破技术壁垒,提升分析效率99%,推动企业数据能力普惠化。
164 3
|
3月前
|
弹性计算 运维 安全
云迁移最佳实践:HyperMotion助中小企业高效上云,阿里云工具集深度集成三方迁移工具
中小企业上云需求强烈,但面临缺乏了解、无合适方案及成本过高等挑战。为解决这些问题,推出“云迁移HyperMotion阿里云集成版”,提供三步上云、自助迁移、自动适配等能力,助力企业高效、低成本完成迁移。
|
5月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
124 2
|
7月前
|
人工智能 自然语言处理 DataWorks
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
539 23
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
|
9月前
|
缓存 运维 监控
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
阿里云在百万服务器运维领域的丰富经验打造。
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
|
8月前
|
关系型数据库 MySQL OLAP
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析
DeepSeek R1 是一款先进的大规模深度学习模型,专为自然语言处理等复杂任务设计。它具备高效的架构、强大的泛化能力和优化的参数管理,适用于文本生成、智能问答、代码生成和数据分析等领域。阿里云平台提供了高性能计算资源、合规与数据安全、低延迟覆盖和成本效益等优势,支持用户便捷部署和调用 DeepSeek R1 模型,确保快速响应和稳定服务。通过阿里云百炼模型服务,用户可以轻松体验满血版 DeepSeek R1,并享受免费试用和灵活的API调用方式。
565 12
|
8月前
|
安全 持续交付 云计算
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
262 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
|
9月前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台集成 DeepSeek 模型
阿里云 AI 搜索开放平台最新上线 DeepSeek -R1系列模型。
443 2
下一篇
开通oss服务