📖 文档简介
本文档是RDS DuckDB 实训营-第二期实践视频《【实践】基于 DuckDB × RDSClaw Skill:进行商品售卖分析与预测》的配套资源手册。
通过 RDS DuckDB 分析实例可以实现复杂分析查询性能百倍跃升。通过列式存储压缩技术,显著降低存储成本,为企业在海量数据规模场景下提供高性价比的实时分析能力,提升企业数据驱动型决策效能。训练营实践演示了如何通过 RDS DuckDB + RDSClaw 进行商品售卖分析与预测。
🚀 操作步骤
1、创建 RDS MySQL DuckDB 主实例
选择免费规格进行创建
在训练营【免费试用】中可开通 RDS MySQL DuckDB 分析主实例 基础系列 4核8GB 3个月免费试用
2、创建一个 RDSClaw 实例
选择免费规格进行创建
在训练营【免费试用】中可开通 RDSClaw 2核4GB 1个月免费试用
3、下载 CSW 文件
在 https://tianchi.aliyun.com/dataset/224149 下载数据集
4、拆分 CSW 文件为 15 个
登录已创建的 RDSClaw 实例,在对话框中输入“帮我把这个 CSW 拆分为 15 个 CSW 文件”
5、学习 Skill
登录已创建的 RDSClaw 实例,在对话框中输入“下载并学习这个技能https://github.com/huanjizhou/alibabacloud-rds-duckdb-analytics-skill”
6、实例创建完成后,开始创建库、账号、修改参数
- 开通公网
- 创建账号
- 修改参数以提升 DuckDB 导入效率
- 修改 duckdb_checkpoint_threshold 参数
duckdb_checkpoint_threshold=107374182400 - 修改 duckdb_data_import_mode 参数
duckdb_data_import_mode = on
7、连接实例
- 进入 RDSClaw 应用详情页;
- 选择 “数据库纳管” 功能;
- 添新连接,选择前文创建的 DuckDB 实例;
- 让 RDSClaw 检查是否连接成功;
8、开始批量导入
在 RDSClaw 对话框中输入以下指令,子 Agent 将自动执行;
输入指令:
让子 agent 完成如下事情:
帮我写一个非交互式的脚本,使用 pymysql 库,配合 LOAD DATA LOCAL INFILE 方式批量导入数据到< 您设置DuckDB实例名称> 这个实例中去,密码是 < 您设置的密码>
建表 sql 为:
CREATE TABLE ecommerce_events ( event_time DATETIME NOT NULL COMMENT '事件发生时间', event_type VARCHAR(20) NOT NULL COMMENT '事件类型: view/cart/remove_from_cart/purchase', product_id BIGINT NOT NULL COMMENT '商品ID', category_id BIGINT COMMENT '类目ID', category_code VARCHAR(100) COMMENT '类目编码,如 electronics.smartphone', brand VARCHAR(50) COMMENT '品牌名称', price DECIMAL(10,2) NOT NULL COMMENT '商品价格(美元)', user_id BIGINT NOT NULL COMMENT '用户ID', user_session VARCHAR(50) NOT NULL COMMENT '用户会话ID', PRIMARY KEY (user_session), INDEX idx_event_time (event_time), INDEX idx_event_type (event_type), INDEX idx_user_id (user_id), INDEX idx_product_id (product_id), INDEX idx_brand (brand), INDEX idx_category_code (category_code(50)) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='电商用户行为事件表(约900w条)';
9、根据 alibabacloud-rds-duckdb-analytics-skill 来分析预测
在 RDSClaw 对话框中即可开始商品售卖智能分析与预测;