阿里云流计算新手任务二(二)|学习笔记

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 快速学习阿里云流计算新手任务二(二)

开发者学堂课程【阿里云流计算使用教程阿里云流计算新手任务二(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/432/detail/5382


阿里云流计算新手任务二(二)

 (2)点击 RDS 中注册数据存储,区域选择华北2,输入刚生成的示例 ID,输入名字 test_03,用户名以及密码,注册即可。

(3)以上 Datahub 和 RDS 注册成功,接下来进入开发阶段。新建一张表叫 test_03,新建成功,选中数据存储先找到 Datahub 中的 test_03,将 Datahub 中的源表作为输入表引用,数据自动生成。

(4)找到 RDS 中的 test_03,将这张表作为结果表引用,也会自动生成信息,可以从表中可以看出源表的字段和结果表的自段,类型、引用地址、账号、密码、引用结果表和源表表名等等。

(5)将计算逻辑写入,这样整个调试结束。

(6)整个测试逻辑是:

创建源表、创建结果表、计算逻辑。为了更方便更直观在控制台上看到整个数据流程,先写了测试数据,这个测试数据不会和运维空间有任何关系,因为开发和运维是两个独立的空间。

(7)点击调试,选择上传数据,可以从数据预览中看到整个数据,点击调试,得到调试结果。

阿里云流计算在计算数据时,会将整个数据运算过程全部打印在控制台,无论是真实数据还是测试都是一样的。到后期存储时,会经过下游的设置,对数据进行踢重,最后保留在数据库中的数据可能仅有1个。

(8)点击上线,上线成功后,点击运维,跳转到运维页面,可以看到作业名称等信息,点击启动。显示运行后启动成功,点击查看。

(9)显示运行后启动成功,点击查看。进入到真正运维空间,可以看大盘作业仪表盘,作业上下游等,刚才已经将 Datahub 中数据上线到真正开发环境中,现在的 datahub 表中是没有数据的,刚才只是在开发中测试的一个数据,现在要将真实数据上传到 datahub 中去。

(10)点击数据采集中的文件上传,选择 teat_03,可以看到创建时间、修改时间等等,但是没有数据,选择需要上传的数据,点击上传文件。

跳回到 RDS 页面,找到数据库,查看是否将信息写入其中。

在数据库中成功显示结果500,并没有像之前开发一样逐条打印信息,而是只打印了最终结果,是因为到了下游经过存储设置,进行数据踢重,最后将数据库中的数据保存到 RDS 中。


二 、最佳实践

隔离:开发和生产运行隔离,避免线上影响。

调试:多用调试诊断问题,可有效避免简单逻辑错误。

预发:不在现有作业修改逻辑,新建作业预发上线。

 

三、生产运维

在生产运维时,会产生大的数据显示,图表显示,会产生以下问题。

业务延时

反映当前处理的数据到哪儿了?

计算耗时

反映流计算处理一条数据平均耗时

数据输入

当前读取上游数据的性能

数据输出

当前写出下游数据的性能

总结:

在大的开发运维页面中,大概有15种数据显示,实时显示数据显示情况。

如下:

1.异常检测:提供底层 Java 运行异常信息

2.数据倾斜:同一阶段节点数据是否分配均匀

3.资源消耗:当前作业任务消耗的资源

4.并发配置:并发数/CU 数比率,合理的区域范围在【5-50】之间

5.业务延迟:当前数据时间-数据产生时间=业务延时,业务延迟越低越好

6.计算耗时:处理一批流数据平均耗时

7.数据输入:数据源输入表的 RPS 统计

8.数据输出:输出表的 RPS 统计

9.CPU 占用:作业的 CPU 占用的情况

10.内存占用:当前单个 Worker 内存使用量

11.维表 RT:每次读取维表数据的 RT,单位为毫秒,维表是源表的关联表

12.源表 RT:每次读取源头数据的 RT,单位为毫秒

13.维表的命中率:JOIN 关联命中在 Cache 的比率,太低会极大影响性能

14.维表关联率:关联查询成功的数据百分比,为0代表全部关联失败

15.源表脏数据:源表读取数据出现脏数据

最佳实践

持续运行:相比于离线,流式作业不存在完毕或者退出情况!

检测错误:当有错误发生时,作业会处理延迟。

设立告警机制:配置延时监控,当延时过大自动触发告警。

多看大盘和文档:阿里云流计算提供了丰富的运维指标和性能文档。

相关文章
|
人工智能 Ubuntu IDE
【Python】基础:环境配置与基础语法
本文介绍了Python编程语言及其环境配置方法。Python由Guido van Rossum于1991年创建,以其简洁、易学和强大的功能著称。文章详细讲解了Python的主要特点、Windows和Ubuntu下的安装配置步骤、基础语法、控制流、函数、文件操作、模块使用及面向对象编程等内容,帮助读者快速入门Python编程。
440 4
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
4229 74
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
1077 138
|
Java 关系型数据库 MySQL
新一代 Cron-Job分布式任务调度平台 部署指南
简单易用、超低延迟,支持用户权限管理、多语言客户端和多租户接入的分布式任务调度平台。 支持任何Cron表达式的任务调度,支持常用的分片和随机策略;支持失败丢弃、失败重试的失败策略;支持动态任务参数。
435 99
|
存储 物联网 调度
操作系统的心脏:内核深度解析
在数字世界的构建中,操作系统扮演着基石的角色,而其核心—内核,则是这一复杂系统的灵魂。本文将深入探讨操作系统内核的工作原理,揭示它是如何管理硬件资源、运行程序以及提供系统服务的。通过理解内核的结构和功能,我们可以更好地把握计算机系统的运作机制,进而优化和创新我们的技术实践。
|
SQL Unix API
夏令时的坑:你的数据库真的能正确处理时间跳变吗?
时区是地球上使用相同标准时间的区域。由于地球的自转,为了保证各地的时间与当地的日出日落相协调,全球划分为多个时区。
574 0
|
供应链 安全 分布式数据库
探索区块链技术在供应链管理中的应用
【10月更文挑战第21天】 本文深入探讨了区块链技术如何在供应链管理中发挥关键作用,通过具体案例分析,揭示了区块链提高透明度、降低成本和增强安全性的潜力。文章首先概述了区块链技术的基本原理及其对传统供应链模式的挑战,接着详细讨论了区块链如何在不同供应链环节中实施,并分析了其带来的变革。最后,文章提出了企业在采纳区块链技术时可能面临的挑战和应对策略,为供应链管理者提供了宝贵的参考。
643 26
|
机器学习/深度学习 计算机视觉
目标检测笔记(六):如何结合特定区域进行目标检测(基于OpenCV的人脸检测实例)
本文介绍了如何使用OpenCV进行特定区域的目标检测,包括人脸检测实例,展示了两种实现方法和相应的代码。
480 1
目标检测笔记(六):如何结合特定区域进行目标检测(基于OpenCV的人脸检测实例)

热门文章

最新文章