byzer笔记本使用

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
简介: byzer笔记本使用

byzer笔记本使用

数据源的定义

对于etl,起始的第一步往往是定义一个数据来源。

设置数据源

通过设置 -> 外部数据源 -> 新增可以新增jdbc类型的数据源。

命令指定数据源

notebook中可以使用connect命令进行jdbc数据源的指定:

> SET user="root";
-- 密码可加密
> SET password="root";
> SET jdbc_url="jdbc:mysql://127.0.0.1:3306/byzer_demo?characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&useSSL=false";
> CONNECT jdbc WHERE
 url="${jdbc_url}"
 and driver="com.mysql.jdbc.Driver"
 and user="${user}"
 and password="${password}"
 AS mysql_instance;

新增jdbc数据源类型

jdbc数据源类型新增的方法即是上传对应的驱动包到${BYZER_HOME}/libs目录下,并重启应用即可。

目前已经验证过支持的jdbc数据源有:

  1. kyligence
  2. impala
  3. clickhouse
  4. mysql
  5. oracle

目前已经覆盖本部门批量(impala)+实时(clickhouse)的数据来源场景。

也可以在OLTP类型的源数据库(oracle)进行实时分析,预测OceanBase同样也是可以支持的。

创建笔记本,进行ETL

笔记本可以认为是一个增强的SQL脚本,可以使用markdown,python,kylin,byzer-lang等语法进行编写。个人使用markdown编写整体思路,在单个byzer-lang call中使用--来增加单行注释。

加载数据

使用load命令加载数据,可以是外部的jdbc数据源,也可以是处理好放在hdfs、hive、deltalake中的数据。

另外,对于csv,excel,json类型的数据,byzer也支持上传并分析,如此一来,对于业务人员提供的excel,或是其他系统调用返回的json报文,都能够快速的加载到byzer平台中进行查询分析。

查询、转换数据

使用sql语句即可进行数据的查询、转换,即使数据来源于两个异构的数据源,也可以在byzer中无缝衔接。另外,byzer的语法中支持模板语言来增加sql的可编程性,降低编码量。例如如下的SQL:

select 
SUM( case when features is null or features='' then 1 else 0 end ) as features,
SUM( case when label is null or label='' then 1 else 0 end ) as label,
1 as a from mockData as output;

其features字段与label字段处理逻辑完全相同,可以简写为如下的SQL:

select 
#set($colums=["features","label"])
#foreach( $column in $colums )
    SUM( case when `$column` is null or `$column`='' then 1 else 0 end ) as $column,
#end
 1 as a from mockData as output;

增强SQL

sql语法在byzer中得到了很大的增强,上述的模板语言为一例子。byzer增强sql的方式有多种,包括但不限于以下几种:

  1. 代码引入 include
    通过代码引入,可以抽取公共的方法,提高SQL可读性。也使得历史上已经编写的python脚本得到复用。
-- 1. 引入自定义函数
include local.`libCore.udf.hello`;
-- 使用函数
select hello() as name as output;
-- 2. 引入其他byzer脚本
include project.`src/algs/b.byzer`;
-- 3. 引入python脚本
!pyInclude project 'src/algs/xgboost.py' named rawXgboost;
  1. 宏函数
    宏函数主要是为了复用 Byzer-lang 代码。
set loadExcel = '''
load excel.`{0}` 
where header="true" 
as {1}
''';
-- 传入两个参数进行excel的加载
!loadExcel ./example-data/excel/hello_world.xlsx helloTable;

写入数据

最终步骤,将查询、转换过的数据写入存储,写入的介质基本与读取的相同,支持hdfs、hive、deltalake、jdbc、excel、csv等。使用的是save命令。

-- 以覆盖的方式写入文件系统/tmp/jack中
save overwrite table1 as json.`/tmp/jack`;
-- 以追加的方式写入jdbc数据源db_1的crawler_table表中
save append tmp_article_table as jdbc.`db_1.crawler_table`;

性能

这里主要观察的是byzer任务在cdh中执行的性能,耗时。cdh的3个节点的配置为64c/128g

  1. byzer的执行引擎是常驻的yarn集群中的,提交任务避免反复启动的过程,简单的SQL在执行上耗时在秒级(load+select 耗时在1秒多)。
  2. 百万级的数据抽取,在impala中抽取95万行数据,且在kyligence中抽取105万行数据耗时47秒,抽取速率高。

扩展

即使byzer内置了较多的函数,例如http请求等等,必然也是无法覆盖全部需求的,byzer提供了 UDF (User-Defined Function)(用户定义函数)的扩展方式,支持以python,scala,java等语言进行扩展,以python为例:

-- 注册一个自定义UDF echoFun
> REGISTER ScriptUDF.`` AS echoFun WHERE
and lang="python"
and dataType="map(string,string)"
and code='''
def apply(self,m):
    return m
 ''';
-- 使用echoFun
> SELECT echoFun(map("a","b")) AS res;
{ "a": "b" }

实际使用时,可以将注册UDF封装为一个byzer脚本,在流程使用时,按需使用include引入。

工作流编辑生成笔记本

工作流目前的作用主要是辅助对sql语法不大了解的分析师,通过界面配置化的形式生成sql,实际执行仍需以另存为笔记本的形式,保存为一个笔记本后,在笔记本中执行。

配置节点

从左侧节点库中拖入节点,并配置其必须的参数,并可实时预览其生成的sql。

另存为笔记本

在左上角点击另存为笔记本,能够保存在笔记本格式。

调度

byzer目前调度对接的为Apache DolphinScheduler 调度平台。其版本为V1.3.9(发版于 2021-10-22),当前官网最新版本已为V3.1.3。其社区成熟,产品功能丰富,足够作为byzer自我调度使用。

若需接入内部的调度平台,byzer 在byzer-notebook工程中,io.kyligence.notebook.console.controller.SchedulerController类定义了调度所需的相关接口,二次开发接入难度低。

问题

笔记本

  1. 笔记本的形式仅顺序执行
    举个例子,一个流程中,需要将结果写入到两个介质,当前仅支持顺序写入,会降低一定的时效性。
    需要对notebook进行二次开发,分析依赖性,最终以并行任务的形式提交到spark集群中。
  2. 对于数据源连接报错时,byzer并没有直接报错并停止任务,需要改进。

工作流

  1. 工作流中只能校验基本的语法,不做执行,实际执行仍可能报错,仍然需要在笔记本中修改。

优化项

工作流

  1. 工作流每个节点仅显示不同类型的图表,并不能设置节点名称,添加节点描述。这对一个较长的工作流来说,后续的维护难度会较高。需要二次开发支持。

数据目录

  1. jdbc数据源的数据目录
    当前jdbc数据源仅在设置中配置其实例,没有图形化界面可以看到数据库下的表、列信息,会在编写sql时造成一定的不便。

设置

  1. 重启后,jdbc数据源并不会立马恢复连接,导致笔记本中使用该jdbc数据源会失效。应尽快完成重连使用。
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
存储 自然语言处理 索引
ES分词器使用说明(analyzer)
本文章主要介绍了分词器的配置方法,以及分词器的优先级,同时配置了多个维度的分词器,哪一个分词器会生效,当出现分词结果不符合预期的时候,可以通过这个本文档内容进行梳理和排查。
2824 0
|
存储 Prometheus Cloud Native
Thanos 工作原理及组件简介
Thanos 工作原理及组件简介
|
存储 JSON 缓存
CocosCreator3.8研究笔记(十五)CocosCreator 资源管理Asset Bundle
CocosCreator3.8研究笔记(十五)CocosCreator 资源管理Asset Bundle
1655 0
|
小程序 开发者
HBuilderX运行uniapp到微信开发者工具常见报错
HBuilderX运行uniapp到微信开发者工具常见报错
3386 0
|
4月前
|
存储 消息中间件 人工智能
【架构模式】解构多智能体协作:AI Agent “指挥官”与“调度官”的双层治理实践
本文提出“指挥官-调度官”双层架构,解决多智能体系统中的意图漂移、死循环与资源竞争问题。通过职能分离,实现高并发、高可用的复杂任务协同。
673 3
|
5月前
|
人工智能 自然语言处理 安全
构建AI智能体:四十五、从专用插件到通用协议:MCP如何重新定义AI工具生态
MCP(模型上下文协议)是AI领域的标准化工具调用协议,相当于万能遥控器,让不同AI模型能通过统一接口使用各种外部工具。其核心架构采用客户端-服务器模式:AI客户端负责理解用户意图并整合结果,MCP服务器则专注于工具执行。相比厂商私有的FunctionCall,MCP具有开放标准、跨模型支持、动态发现等优势,能实现真正的"即插即用"。该协议解决了AI模型知识局限、无法执行动作等问题,使AI从"知识库"进化为能操作外部系统的智能助手,可应用于个人
856 7
|
2月前
|
监控 API 数据安全/隐私保护
投研效率飙升10倍!阿里云部署OpenClaw(Clawdbot)集成20款顶级金融Skill:24小时盯盘/智能研判,不做“金融牛马”!
在信息爆炸与市场竞争白热化的2026年,金融从业者正面临前所未有的三重困境:每日需处理数万条结构化与非结构化数据,信息过载导致决策效率低下;全球化交易机制拉长有效工作时间,“盘前-盘中-盘后”全天候作战模式引发职业倦怠;多资产、多维度、多风险因子的决策空间,已远超人类认知处理极限。传统依赖经验与手动操作的投研模式,在“人机协同”的新时代已难以为继。
2708 2
TortoiseSVN安装使用教程(超详细)
TortoiseSVN安装使用教程(超详细)
13501 58
|
7月前
|
缓存 边缘计算 监控
89_批量推理:异步API调用
在当今数据密集型应用和大模型部署的时代,批量推理已成为提升系统性能和资源利用率的关键技术。随着深度学习模型规模的不断扩大和应用场景的日益复杂,如何高效地处理大量推理请求成为技术团队面临的重要挑战。传统的同步API调用方式在面对高并发、大规模数据处理时,往往会遇到响应延迟高、资源利用不充分等问题。异步API调用作为一种更高效的处理模式,通过非阻塞操作和并发处理能力,为批量推理场景提供了理想的解决方案。
600 0
|
机器学习/深度学习
阿里妈妈首提AIGB并实现大规模商业化落地,将在NeurIPS 2024正式开源Benchmark
阿里妈妈提出AI-Generated Bidding(AIGB)新范式及DiffBid生成式竞价模型,突破传统基于强化学习的自动竞价方法局限。AIGB将自动竞价视为生成问题,通过捕捉复杂依赖关系,提升长期规划和随机环境中的稳定性和效果。DiffBid基于条件扩散建模,灵活生成满足特定目标的竞价轨迹,显著提升GMV和ROI。实验结果表明,DiffBid实现了2.81%的GMV增长和3.36%的ROI增长。然而,生成式建模的复杂性也带来了训练和调优的挑战。 论文链接:https://arxiv.org/abs/2405.16141
719 9