淘宝实时数据传输平台: TimeTunnel介绍

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据同步 1个月
简介:

作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。


业务背景

TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。

目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据库同步等领域。


开源在:TaoCode,代码是开源的。

 

业务保障:

保证为所有的报表按时准备好所需数据,延迟不超过一分钟;

保证为所有的实时应用提供实时数据,延迟不超过一秒钟。

 

在整个数据仓库中的角色(图中”TT”字样):


在全量/批量数据导入部分使用的是DHW和DataX,其中DataX貌似是开源的,也是一个不落地的异构数据源传输工具。

而在增量,或者说是流式场景下,这部分数据的采集和导入就依赖了TimeTunnel。


TT对接的Storm和Galaxy流计算模块也简单提一下:

galaxy是一套支持SQL定义业务逻辑的流计算服务化平台

galaxy之于storm,就类似hive之于hadoop的关系

下图为Galaxy的一个架构图:



组件


Time Tunnel大概有几部分组成,TTmanager,Client,Router,Zookeeper,Broker。

 

TTManager: 负责对外提供队列申请、删除、查询和集群的管理接⼝口;对内故障发现,发起队列迁移

 

Client是一组访问timetunnel的api,主要有三部分组成:安全认证api,发布api,订阅api。目前client支持java,python,php三种语言。

 

Router:为客户端提供路由信息,找到为消息队列提供服务的Broker。Router是访问timetunnel的门户,主要负责路由、安全认证和负载均衡。Client访问timetunnel的第一步是向Router进行安全认证,如果认证通过,Router根据Client要发布或者订阅的topic对Client进行路由,使Client和正确的Broker建立连接,路由的过程包含负载均衡策略,Router保证让所有的Broker平均地接收Client访问。

 

Zookeeper是hadoop的开源项目,其主要功能是状态同步,Broker和Client的状态都存储在这里。

 

Broker是timetunnel的核心,负责消息的存储转发,承担实际的流量,进行消息队列的读写操作。



其他

对接数据

  • 数据库的日志(如mysql、oracle等)
  • 服务器产生的日志(如apache)
  • app通过接口产生的数据


队列资源

  • 队列是一种资源,TimeTunnel提供队列。
  • 队列按需申请,订阅队列接口

持续服务

  • 故障发现,发起迁移
  • Broker之间流量均衡
  • 上下线机器平稳扩容

WhyHBase?

  • 顺序scan速度快
  • 很好的扩展性
  • 强一致性
  • 高并发写
  • 底层数据存储基于HDFS
  • 开源,社区活跃
  • 国内顶级的运维和开发团队

HBase表设计

  • 一个Queue对应一个region
  • 一组Queue(256/512)对应一个表
  • Rowkey:queueID + timestamp + seq +brokerID
  • 数据列族+属性列族
  • 按天分表,方便删除历史数据
  • Pre-Sharding降低compact和split的发生


全文完 :)


相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
目录
相关文章
|
canal Kubernetes Cloud Native
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
602 0
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
|
canal 消息中间件 监控
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
745 0
2020实战复盘:如何从0到1搭建数据传输平台产品DTS?(二)
|
SQL 消息中间件 运维
汽车之家基于 Flink 的数据传输平台的设计与实践
数据接入与传输作为打通数据系统与业务系统的一道桥梁,是数据系统与架构中不可或缺的一个重要部分。数据传输系统稳定性和准确性,直接影响整个数据系统服务的 SLA 和质量。此外如何提升系统的易用性,保证监控服务并降低系统维护成本,优雅应对灾难等问题也十分重要。
汽车之家基于 Flink 的数据传输平台的设计与实践
|
7月前
|
SQL 分布式计算 监控
在数据传输服务(DTS)中,要查看每个小时源端产生了多少条数据
【2月更文挑战第32天】在数据传输服务(DTS)中,要查看每个小时源端产生了多少条数据
77 6
|
7月前
|
存储 SQL NoSQL
数据传输DTS同步问题之同步失败如何解决
数据传输服务(DTS)是一项专注于数据迁移和同步的云服务,在使用过程中可能遇到多种问题,本合集精选常见的DTS数据传输问题及其答疑解惑,以助用户顺利实现数据流转。
|
7月前
|
Cloud Native NoSQL 关系型数据库
数据传输DTS校验问题之校验报错如何解决
数据传输服务(DTS)是一项专注于数据迁移和同步的云服务,在使用过程中可能遇到多种问题,本合集精选常见的DTS数据传输问题及其答疑解惑,以助用户顺利实现数据流转。
|
4月前
|
存储 安全 关系型数据库
跨越地域的数据传输大冒险!如何轻松更换DTS实例地域,全面攻略揭秘!
【8月更文挑战第15天】在数字时代的浪潮中,数据传输服务(DTS)是企业跨地域扩张的重要桥梁。然而,更换DTS实例地域就像是一场冒险旅程,充满了未知和挑战。本文将带你踏上这场跨越地域的数据传输大冒险,揭示如何轻松更换DTS实例地域的秘密。无论你是追求速度的迁移高手,还是成本敏感的手动操作者,这里都有你需要的答案。让我们一起探索这个神秘的世界,解锁数据传输的无限可能!
55 0
|
4月前
|
关系型数据库 MySQL OLAP
数据传输DTS是什么?
【8月更文挑战第30天】数据传输DTS是什么?
389 3
|
6月前
|
关系型数据库 MySQL 分布式数据库
PolarDB操作报错合集之当使用DTS(数据传输服务)同步的表在目标库中进行LEFT JOIN查询时遇到异常,是什么导致的
在使用阿里云的PolarDB(包括PolarDB-X)时,用户可能会遇到各种操作报错。下面汇总了一些常见的报错情况及其可能的原因和解决办法:1.安装PolarDB-X报错、2.PolarDB安装后无法连接、3.PolarDB-X 使用rpm安装启动卡顿、4.PolarDB执行UPDATE/INSERT报错、5.DDL操作提示“Lock conflict”、6.数据集成时联通PolarDB报错、7.编译DN报错(RockyLinux)、8.CheckStorage报错(源数据库实例被删除)、9.嵌套事务错误(TDDL-4604)。