大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)

简介: 大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)

接上篇:https://developer.aliyun.com/article/1623066?spm=a2c6h.13148508.setting.17.49764f0enfw0YQ

数据虽然加载了,但是格式不对,我们在右侧选择:JSON:

点击之后,可以看到,(如果你解析不顺利,可以用这个尝试)点击 Add column flattening

如果正常解析,数据应该是这个样子:

ParserTime

继续点击 Next Parse Time:

Transform

继续点击 Next Transform:

  • 不建议在Druid中进行复杂的数据变化操作,可考虑将这些操作放在数据预处理的过程中处理
  • 这里没有定义数据转换

Filter

继续点击 Next Filter:

  • 不建议在Druid中进行复杂的数据过滤操作,可以考虑将这些操作放在数据预处理中
  • 这里没有定义数据过滤

Configuration Schema

点击 Next Configuration Schema:

  • 定义指标列、维度列
  • 定义如何在维度列上进行计算
  • 定义是否在摄取数据时进行数据的合并(即RollUp),以及RollUp的粒度

此时点击右侧的:RollUp,会看到数据被聚合成了两条:

聚合结果:

Tune

点击 Next Tune:

  • 定义任务执行和优化相关的参数

Publish

点击 Next Publish:

  • 定义Datasource的名称
  • 定义数据解析失败后采取的动作

Edit Special

点击 Next Edit spec:

  • JSON串为数据摄取规范,可返回之前的步骤中进行修改,也可以直接编辑规范内容,并在之前的步骤可以看到修改的结果
  • 摄取规范定义完成后,点击Submit会创建一个数据摄取的任务

Submit

点击 Submit 按钮:

数据查询

  • 数据摄取规范发布后生成Supervisor
  • Supervisor会启动一个Task,从kafka中摄取数据
    需要等待一段时间,Datasource才会创建完毕,选择 【Datasources】板块:
    点击末尾的三个小圆点,选择 Query With SQL:

会出现如下的界面,我们写入SQL,并运行:

SELECT 
  *
FROM 
  "druid1"

执行结果如下图:

数据摄取规范

{
  "type":"kafka",
  "spec":{
    "ioConfig":Object{...},
    "tuningConfig":Object{...},
    "dataSchema":Object{...}
  }
}
  • dataSchema:指定传入数据的Schema
  • ioConfig:指定数据的来源和去向
  • tuningConfig:指定各种摄取参数
目录
相关文章
|
10月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
660 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
10月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
307 11
|
6月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
859 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
6月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
614 4
|
10月前
|
消息中间件 架构师 Java
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
|
12月前
|
存储 SQL Apache
为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案?
本文将从技术选型的视角,从开放性、系统架构、实时写入、实时存储、实时查询等多方面,深入分析 Apache Doris 与 Elasticsearch 的能力差异及性能表现
1469 17
为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案?
|
8月前
|
消息中间件 存储 监控
Apache Kafka 3.0与KRaft模式的革新解读
在该架构中,Kafka集群依旧包含多个broker节点,但已不再依赖ZooKeeper集群。被选中的Kafka集群Controller将从KRaft Quorum中加载其状态,并在必要时通知其他Broker节点关于元数据的变更。这种设计支持更多分区与快速Controller切换,并有效避免了因数据不一致导致的问题。
|
9月前
|
人工智能 运维 监控
Aipy实战:分析apache2日志中的网站攻击痕迹
Apache2日志系统灵活且信息全面,但安全分析、实时分析和合规性审计存在较高技术门槛。为降低难度,可借助AI工具如aipy高效分析日志,快速发现攻击痕迹并提供反制措施。通过结合AI与学习技术知识,新手运维人员能更轻松掌握复杂日志分析任务,提升工作效率与技能水平。
|
消息中间件 Java Kafka
什么是Apache Kafka?如何将其与Spring Boot集成?
什么是Apache Kafka?如何将其与Spring Boot集成?
752 5
|
5月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
964 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来

热门文章

最新文章

推荐镜像

更多