初识 DataHub|学习笔记-阿里云开发者社区

初识 DataHub|学习笔记

2022-11-12 572

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习初识 DataHub

开发者学堂课程【阿里云 DataHub 使用教程：初识 DataHub】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/429/detail/5364

初识 DataHub

内容介绍：

一、 DataHub 基本使用指南

二、创建项目空间

一、DataHub 基本使用指南

在浏览器地址栏输入 DataHub.consola.aliyun.com 进入 Data 控制台，可以看到提供了项目管理、数据采集以及帮助文档。

帮助文档里主要有 Data 产品介绍文档及详细使用方法、提供 Java SDK 和 Python SDK 文档，用 SDK 接口的文档可以根据 API 指南进行开发。

数据采集提供了不同的开源工具，包括 LogStash 等插件的接入方式和云上一些数据平台的接入方式。

二、创建项目空间

在使用 Data 之前，需创建一个项目空间，点解创建 Project，创建名为 test-dh1。

创建成功后，进入项目管理页面，点击创建 Topic，即可创建固定形式的 Topic，在这里，创建名称为 test-dh-topic；Topic 类型为强格式，即 TUPLE；Schema 创建三个阶段，分别为 f1、f2、f3；Shard 数量目前每个支持1000qps，根据流量不同，决定 Shard 数量，这里设为1；生命周期为3天。

如下图。

创建成功后，可在 topic 页面上点击查看，可看到 topic 基本详情，包括其创建时间、修改时间、存储空间以及通道状态。

点击数据采集，通过文件上传方式上传本地 csv 文件，选择刚创建的 topic，选择文件中选择不跳过首行，进行上传，上传成功后，可在 topic 项目管理页面对数据进行查看，点击数据抽样，选择当前时间抽样，就可看到刚刚上传成功的几条数据，System time 代表的是数据上传时间。