初识 DataHub|学习笔记

简介: 快速学习初识 DataHub

开发者学堂课程【阿里云 DataHub 使用教程 初识 DataHub】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/429/detail/5364


初识 DataHub


 内容介绍:

一、 DataHub 基本使用指南

二、 创建项目空间


一、DataHub 基本使用指南

在浏览器地址栏输入 DataHub.consola.aliyun.com 进入 Data 控制台,可以看到提供了项目管理、数据采集以及帮助文档。

帮助文档里主要有 Data 产品介绍文档及详细使用方法、提供 Java SDK 和 Python SDK 文档,用 SDK 接口的文档可以根据 API 指南进行开发。

数据采集提供了不同的开源工具,包括 LogStash 等插件的接入方式和云上一些数据平台的接入方式。

 

二、创建项目空间

在使用 Data 之前,需创建一个项目空间,点解创建 Project,创建名为 test-dh1。

image.png

创建成功后,进入项目管理页面,点击创建 Topic,即可创建固定形式的 Topic,在这里,创建名称为 test-dh-topic;Topic 类型为强格式,即 TUPLE;Schema 创建三个阶段,分别为 f1、f2、f3;Shard 数量目前每个支持1000qps,根据流量不同,决定 Shard 数量,这里设为1;生命周期为3天。

如下图。

image.png

创建成功后,可在 topic 页面上点击查看,可看到 topic 基本详情,包括其创建时间、修改时间、存储空间以及通道状态。

 image.png

点击数据采集,通过文件上传方式上传本地 csv 文件,选择刚创建的 topic,选择文件中选择不跳过首行,进行上传,上传成功后,可在 topic 项目管理页面对数据进行查看,点击数据抽样,选择当前时间抽样,就可看到刚刚上传成功的几条数据,System time 代表的是数据上传时间。

相关文章
|
4月前
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之kafka数据导入datahub失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
数据采集 大数据 数据挖掘
DataHub应用场景有哪些?
本文为您介绍DataHub三大应用场景,主要场景包括:实时数据通道、实时数据清洗和分析、实时数据仓库。
964 0
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之mysql-cdc读取数据写入到datahub中,datahub如何转换时区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
39 1
|
4月前
|
存储 监控 Apache
Flink整库同步 如何把数据丢入到 datahub 中
Flink整库同步 如何把数据丢入到 datahub 中
|
消息中间件 弹性计算 分布式计算
Kafka 数据如何同步到 MaxCompute | 学习笔记(一)
快速学习 Kafka 数据如何同步到 MaxCompute
372 0
Kafka 数据如何同步到 MaxCompute | 学习笔记(一)
|
消息中间件 弹性计算 分布式计算
Kafka 数据如何同步到 MaxCompute | 学习笔记
快速学习 Kafka 数据如何同步到 MaxCompute,介绍了 Kafka 数据如何同步到 MaxCompute系统机制, 以及在实际应用过程中如何使用。
164 0
Kafka 数据如何同步到 MaxCompute | 学习笔记
|
消息中间件 SQL JSON
Kafka 数据如何同步到 MaxCompute | 学习笔记(二)
快速学习 Kafka 数据如何同步到 MaxCompute
261 0
|
消息中间件 JSON Java
Kafka通过Hologres Connector写入Hologres
本文将会介绍如何通过Hologres connector将Kafka的数据写入Hologres
1631 0
Kafka通过Hologres Connector写入Hologres
|
消息中间件 存储 SQL
Kafka数据入湖OSS实践
本质上,Kafka提供的是消息队列的能力,为消息从生产者流向消费中提供稳定、高效、可靠的渠道。但Kafka本身并不提供海量数据存储的能力,这意味着重读kafka中历史数据将不可能。同时,Kafka没有提供开箱即用的数据处理工具(尽管你可以采用kafka streams或者flink等,但这需要你自己写代码逻辑),使得对原始数据进行加工处理成本较高。我们知道,阿里云OSS提供了灵活、海量、高性价比的
Kafka数据入湖OSS实践
|
消息中间件 Java 开发工具
DataHub Flink Connector
我们在阿里云上使用DataHub作为Flink程序输入输出的消息队列,使用成本比较低,但由于是阿里云的云产品,周边生态做的不是很好,Flink Stream的Connector并没有开源出来。因此本人参照RocketMQ Flink Connector写了DataHub的Flink Connector。
1748 2