DataHub使用指南

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 介绍DataHub的功能使用

快速入门教程

1.开通DataHub

​ 使用DataHub的第一步,首先点击开通DataHub

2.创建Project和 Topic

  • 具体创建方式参考文档:https://help.aliyun.com/document_detail/158785.html?spm=a2c4g.11186623.6.556.796958e1yVcaLO
  • 创建Topic方式解读,Tuple还是Blob?

    • Tuple支持的是强Schema的结构化数据,Blob指的是没有类型的非结构化数据,在实际中Blob就是只有一列为string类型的schema
    • 值得注意的是:使用Blob类型topic的话,数据会采用Base64加密,无论是抽样还是下游消费,都需要进行解密
    • Schema设计


DataHub目前只支持字段的新增,不支持删除和修改,针对上游数据源字段经常发生变动的场景,建议设置允许字段为空,如果上游字段变更的话,针对多出来的字段可以通过SDK新增字段,而对于减少的字段则由于允许为空,值将会置为NULL,不会对业务造成影响
  • shard 和生命周期设置

    • shard在DataHub中代表的是并发通道,每个shard每秒吞吐限制为5M/s,每个shardQPS(每秒请求数)为2000次,您可根据这两项指标合理设置shard个数
    • 针对生命周期而言,可以根据业务需要设置,如果需要更改的话,可以使用Java SDK修改生命周期

3.上游的选择

DataHub目前支持的数据采集插件

  • OGG

    • OGG for MySQL
    • OGG for Oracle
  • LogStash
  • Flume
  • Canal插件
  • Fluentd

https://help.aliyun.com/document_detail/158836.html?spm=a2c4g.11186623.6.588.5e65710b7RMCns
通过SDK自定义写入DataHub

注意:

https://help.aliyun.com/document_detail/158841.html?spm=a2c4g.11186623.6.599.28c21333xe8wPo
https://help.aliyun.com/document_detail/158834.html?spm=a2c4g.11186623.6.583.2db4710bEEOlFZ
兼容Kafka

https://help.aliyun.com/document_detail/168118.html?spm=a2c4g.11186623.6.586.6aec6bdbCi1ElZ
DTS数据同步
从PolarDB MySQL同步至Datahub
从DRDS同步至DataHub
DataHub目前的上游生态就是这样了

4.指标查看 or数据抽样

​ 在将数据写入到DataHub之后,DataHub提供了可视化指标来查看内部情况,具体详情请查看

指标查看metric详情最新.png

​ 用户如何查看数据质量,写入是否正确?可以通过Web抽样功能来查看数据

5.订阅

​ 什么是订阅?

  • 订阅最主要的功能就是存储消费点位,以及通过点位重置重新消费
  • 用户可创建不同的订阅针对同一个Topic数据的不同消费模式
  • 创建同步自动会创建对应的订阅


创建订阅,删除订阅请查看文档:https://help.aliyun.com/document_detail/158833.html?spm=a2c4g.11174283.6.584.78d763ef5KNv0Y

6.同步数据到下游

​ 消费DataHub数据有两种方式,通过DataHub支持的同步数据库同步到下游,或者通过自定义SDK消费数据进行处理

DataHub支持的同步类型:

  • Hologres
  • Maxcompute
  • ADS
  • ElasticSearch
  • 函数计算
  • OSS
  • TableStore
  • RDS/MySQL/ADS 3.0

自定义SDK消费

​ 您可以使用SDK对DataHub数据进行消费

​ 同时DataHub协同消费解决多个消费者同时消费一个topic时,自动分配shard的问题,您也可以选择使用协同消费对DataHub数据进行处理

​ 同步往往是出现问题最多的,请参考  DataHub同步问题

7.监控报警

​ 在同步数据过程中,DataHub支持了监控报警,目前只有订阅延迟报警这一项,您可以通过创建报警规则方式对DataHub同步到下游数据进行监控,当超过延迟时间阈值时,会通过钉钉、短信等多种方式提醒您。

​ 具体报警说明请查看文档:监控报警

8 总结

本文通过对DataHub的创建使用,上游数据源的选择,同步到DataHub的指标查看,以及下游类型的说明,阐述了DataHub做为数据通道的概念模型以及实际的落地场景,如有更多使用疑问,请加DataHub公共云群组进行反馈

相关实践学习
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
相关文章
|
1月前
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之kafka数据导入datahub失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
数据采集 Java API
初识 DataHub|学习笔记
快速学习初识 DataHub
373 0
初识 DataHub|学习笔记
|
SQL 分布式计算 数据处理
图文详解:DataHub产品概述
阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅 (Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。
2414 0
|
数据采集 大数据 数据挖掘
DataHub应用场景有哪些?
本文为您介绍DataHub三大应用场景,主要场景包括:实时数据通道、实时数据清洗和分析、实时数据仓库。
821 0
|
索引 存储 NoSQL
表格存储(Tablestore)入门指南
表格存储(Tablestore)入门指南内容简介了表格存储(Tablestore)是阿里云自研的 NoSQL 多模型数据库,提供海量结构化数据存储以及快速的查询和分析服务。
17423 2
|
分布式计算 MaxCompute 开发者
《阿里云MaxCompute百问百答》下载
为了更好地帮助广大MaxCompute用户解决可能遇到的问题,阿里云 MaxCompute团队基于MaxCompute开发者社区和其它渠道反馈的问题,总结归纳 出MaxCompute各个功能点的常见问题,希望可以给正在学习和使用MaxCompute 的用户提供一些帮助。
88 0
《阿里云MaxCompute百问百答》下载
|
分布式计算 MaxCompute 开发者
《阿里云MaxCompute百问百答》下载地址
为了更好地帮助广大MaxCompute用户解决可能遇到的问题,阿里云 MaxCompute团队基于MaxCompute开发者社区和其它渠道反馈的问题,总结归纳 出MaxCompute各个功能点的常见问题,希望可以给正在学习和使用MaxCompute 的用户提供一些帮助。
69 0
《阿里云MaxCompute百问百答》下载地址
|
SQL 分布式计算 DataWorks
【MaxCompute 常见问题】 快速入门
如何使用 Tunnel 命令导入数据? 可以使用 tunnel upload 命令上传数据至 MaxCompute 表,每一次上传只支持数据上传到一张表或表的一个分区。
【MaxCompute 常见问题】 快速入门
|
存储 SQL 运维
Tablestore 控制台入门指南
通过阅读本文您将了解和学习到如何通过表格存储Tablestore控制台快速搭建和操作一款零运维、无限容量的数据库。表格存储Tablestore提供了一定使用量的免费额度(10GB数据存储量、1000万按量读写吞吐),供大家体验测试使用。下面将开始介绍如何通过Tablestore控制台创建实例、创建数据表、读写数据、创建索引、搜索数据、删除索引和数据表。
453 0
Tablestore 控制台入门指南
|
存储 NoSQL JavaScript
Tablestore 快速入门
近十年来互联网技术得到了飞速的发展,越来越多的行业逐渐加入到了互联网的阵营中来,同时也产生了更丰富、更复杂的业务场景和需求,这对于数据应用系统的性能是巨大的挑战。互联网或物联网应用采用关系型数据库 MySQL 存储会遇到哪些问题,是规模瓶颈、还是成本太高?阿里云自研 Serverless 结构化数据存储 Tablestore如何解决 MySQL 的扩展性问题?如何在十分钟内学习和免费体验一款强大的 Serverless 数据库产品?
495 0

热门文章

最新文章