大数据总线(DataHub)

简介:

本页目录

注册

DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。流计算通常使用DataHub作为流式数据存储头和输出目的端。

注意: DataHub在公有云使用需要用户授予实时计算代为用户访问DataHub权限,具体请参看流计算角色授权。否则可能出现报错“No Permission”的情况。

22

Endpoint

填写DataHub Endpoint

需要注意不同的地域下DataHub有不同的Project。当前DataHub仅支持杭州地域,为http://dh-cn-hangzhou.aliyun-inc.com。如需了解更多Endpoint相关信息,请您访问DataHub控制台。

注意:http://dh-cn-hangzhou.aliyun-inc.com不要使用(/)结尾

VPC模式支持

当前DataHub不提供VPC模式,因此实时计算当前使用DataHub的经典网络地址(Endpoint)即可。

内外网选择

上述http://dh-cn-hangzhou.aliyun-inc.com是DataHub在阿里云内网地址。实时计算和DataHub实际上同处于阿里云内网,使用内网访问更加节省带宽。
有关专有云的Endpoint填写,请联系您的专有云系统管理员,咨询有关DataHub Endpoint地址。

Project填写

填写DataHub的Project。

注意:**跨属主的数据存储不能注册。例如A用户拥有DataHub的ProjectA,但B用户希望在流计算使用ProjectA,目前流计算暂不支持这类使用场景下注册,若需使用可使用明文方式,具体参考创建数据总线源表创建数据总线结果表

使用

由于DataHub本身是流数据存储,流计算只能将其作为流式数据输入和输出,无法作为维表引用。有关DataHub DDL定义,请参看具体章节。

常见问题

Q: 为什么我注册失败,失败原因提示XXX?

A: 实时计算的数据存储页面能够协助您完成数据管理,其本身就是使用相关存储SDK代为访问各类存储。因此很多情况下可能是您注册过程出现问题导致,请排查如下原因。

  • 请确认是否已经开通并拥有DataHub的Project。请登录DataHub控制台,公有云客户可以访问DataHub控制台看您是否有权限访问您的Project。

  • 请确认您是DataHub Project的属主。跨属主的数据存储不能注册。例如A用户拥有DataHub的ProjectA,但B用户希望在流计算使用ProjectA,目前流计算暂不支持这类使用场景下注册,若需使用可使用明文方式,具体参考创建数据总线源表创建数据总线结果表

  • 请确认您填写的DataHub的Endpoint和Project完全正确。DataHub Endpoint必须以http开头,且不能以(/)结尾。例如,http://dh-cn-hangzhou-internal.aliyuncs.com是正确的,但http://dh-cn-hangzhou-internal.aliyuncs.com/是错误的。

  • 请确认您填写的DataHub Endpoint是经典网络地址,而非VPC地址。目前流计算暂不支持VPC内部地址。

  • 请不要重复注册,实时计算提供注册检测机制,避免您重复注册。

Q: 为什么数据抽样仅仅针对时间抽样,不支持其他字段抽样?

A: DataHub定位是流数据存储,对外提供的接口也只有时间参数。因此,实时计算也只能提供基于时间的抽样。

附录

产品内网与公网选择

注意:本小节仅限于公共云场景,不包含专有云情况。

所谓的内网和公网是相对于阿里云集群来说。我们可以将阿里云计算视为一个跨地域的大型计算集群。集群内部之间的网络传输可以使用阿里云内网,这样可以有效地节省网络带宽成本。

例如,实时计算使用阿里云内部网络带宽访问RDS。

对于外部(例如Internet)网络请求阿里云服务,则需要使用公网地址。实时计算注册DataHub过程中,要求用户必须提供DataHub内网Endpoint地址。 但对于外部数据写入DataHub而言,则需要填写DataHub公网地址。如下图所示。


例如,在当前PC使用LogStash采集传输日志。

大数据总线目录


本文转自实时计算——大数据总线(DataHub)

相关文章
|
分布式计算 Java MaxCompute
DataHub通过DataConnector流转到MaxCompute全链路测试
前面通过博客:流数据同步DataConnector测试整理简要介绍了DataConnector的配置。下面通过一个示例,从maxcompute建表开始,介绍整个链路的实现。实现使用Datahub SDK写入数据到Topic,进而经过Dataconnector推送数据到maxcompute的数据表。
2036 0
|
大数据 测试技术 流计算
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
503 14
|
9月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
337 4
|
9月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
436 3
|
9月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
681 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
243 14
|
7月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
240 1
下一篇
开通oss服务