不停机迁移,TDengine 在黑格智能 3D 打印技术中的“焕新”之路

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 近期黑格智能刚好完成 TDengine 2.x 到 3.x 的数据迁移,借此机会将 TDengine 的使用/迁移经验与大家分享。

小T导读:自 2021 年我们正式使用 TDengine 至今已接近三年,现在 TDengine 已经成熟应用于我们多个项目当中,凭借着强大的读写存储能力,为我司多项业务的核心数据保驾护航。近期我们团队刚好完成 TDengine 2.x 到 3.x 的数据迁移,借此机会将 TDengine 的使用/迁移经验与大家分享。


选型过程及业务背景

我司的主要业务之一就是基于 3D 打印技术给客户提供整体化解决方案,其中一个核心场景是我们要持续追踪设备的运行状态,存储海量的设备运行数据。这是一个典型的物联网系统的核心需求——以设备为维度,按照时间顺序大批量写入和查询设备的各项数据。

这个业务场景非常适合时序数据库Time Series DatabaseTSDB),但市场上的时序数据库存在着各种各样的痛点:或是数据读写性能不佳;或是部署的复杂性高,或是难以维护。经过多方考察对比后,我们发现 TDengine 是最适合我们的选择。


TDengine 迁移过程

为顺利升级到 TDengine 3.x 版本,我们先把数据从 2.x 抽出写入到了一个 3.x 版本的临时集群,验证无误之后,再利用如下方案实现了无需停机、不影响业务写入的 3.x 版本之间的数据库迁移工作。过程如下:

a. 新增节点D\E\F:

CREATE DNODE "D";

CREATE DNODE "E";

CREATE DNODE "F";

b. 逐个删除节点A\B\C(以 A 为例):

#删除A节点MNODE角色

DROP MNODE ON DNODE A_DNODE_ID;

#添加D节点MNODE角色

CREATE MNODE ON DNODE D_DNODE_ID;

#删除A节点,节点A删除过程,节点A的数据会同步到接口D\E\F中

DROP DNODE A_DNODE_ID;


典型业务场景分享

由于一台设备每天有数以万计的数据需要存储,世界各地范围内的设备汇集起来,便产生了海量的数据存储和查询需求。关于 TDengine ,我们主要有以下三个方向的应用:

  • 在设备运行出现问题时,根据消息定位具体的问题;
  • 以设备长时间运行的数据作数据分析,解决设备运行存在的隐患;
  • 生成 BI 报表,展示设备各种传感器最近一段时间的状态。

从众多的超级表中,我们取一个百亿级别的超级表来举例说明 TDengine 的应用过程,具体表结构如下:

当我们对这张设备消息表 s_mqtt 查询 ‘2023-12-15 00:00’ 至 ‘2023-12-15 02:50:00’ 时间段的 ‘1011’ 类型,设备序列号为 ‘xxxxxxx’ 的所有消息内容,可以看到,查询结果是毫秒级返回的

select*from s_mqtt where ts>'2023-12-15 00:00:00.000'and ts<'2023-12-15 03:00:00.000'and device_sn='xx'and kind=1011;

TDengine 高效的写入和读取性能很好的满足了我们频繁写入和读取数据的迫切需要。而在存储方面,压缩率经过计算在 10% 左右,也完全符合我们的存储需求。


遇到的问题

在 2.x 升级到 3.x 的过程中,我们遇到了以下两个比较棘手的问题,得到了 TDengine 官方技术团队的技术讲解和远程排查问题等支持,在此衷心表达感谢。

1. vgroups 设置问题。TDengine 3.x 版本增加了 vgroups 参数,代表了数据库读写数据的一个并行度,合理的设置可以最大程度的激发读写性能。我们在测试环境测试时,发觉表的读写比 2.x 版本慢了好多,经 TDengine 技术团队排查,发现我们只使用了默认的 2 个 vgroups,具体使用规则可以参考参考《体验 TDengine 3.0 高性能的第一步,请学会控制建表策略》

2. taosAdapter 无返回问题。在 TDengine 3.x 版本上线后,微服务通过 restful 方式连接 TDengine 时,taosAdapter 会出现无响应但 taosd 服务正常的现象。这个问题我们自己排查了好久,后面寻求官方技术团队的帮忙,经过远程排查服务器环境和日志分析,最后定位到是我们大量使用”show cluster alive”作为微服务监听语句的频繁请求导致。随后官方建议我们更换”select 1″作为健康检查语句,顺利解决了这个问题。后续官方也优化了”show cluster alive”这个命令的实现,避免类似情况出现。


未来展望

使用 TDengine 三年来,TDengine 在我们的物联网业务、设备 BI 数据展示等模块作用巨大,它直观地展示了设备运行状况,帮助我们快速定位和解决设备问题。接下来,我们将会继续探索 TDengine 在智能设备打印、智能设备运维等方面应用与实践。祝 TDengine 越来越好。

目录
相关文章
|
6月前
|
SQL 运维 安全
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
2052 2
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
8月前
|
监控 Cloud Native 关系型数据库
记录一次云原生线上服务数据迁移全过程
记录一次云原生线上服务数据迁移全过程
记录一次云原生线上服务数据迁移全过程
|
监控 容灾
《云迁移与云容灾-【驻云科技】混合IT时代面向数据的监控》电子版地址
云迁移与云容灾-【驻云科技】混合IT时代面向数据的监控
62 0
《云迁移与云容灾-【驻云科技】混合IT时代面向数据的监控》电子版地址
|
容灾
《云迁移与云容灾-构建混合驱动的云平台-引领体验至上的数字化转型》电子版地址
云迁移与云容灾-构建混合驱动的云平台-引领体验至上的数字化转型
77 0
《云迁移与云容灾-构建混合驱动的云平台-引领体验至上的数字化转型》电子版地址
|
人工智能 监控 算法
“定时定量 自动出粮” 鸟语花香推出新一代智能喂食器
小智M1智能喂食净水一体机,利用IoT和视觉AI技术,大大提升养宠家庭的科学养宠体验,降低喂养难度。
354 0
“定时定量 自动出粮” 鸟语花香推出新一代智能喂食器
|
数据采集 SQL 消息中间件
你经历过完整的大数据平台迁移吗?
你经历过完整的大数据平台迁移吗?
321 0
|
存储 SQL Cloud Native
|
NoSQL 安全 数据管理
2022 MongoDB 数据与创新报告发布:复杂基础架构阻碍企业创新,数据成最大痛点
中国企业普遍认为技术创新对于推动未来增长至关重要,但 61%的企业表示复杂的数据基础架构阻碍了这一进程。
131 0
|
算法 物联网 大数据
解决方案应用实例 |阿里云x海宁皮革城,共同推动海宁皮革产业带数字化升级
2020年9月28日,海宁中国皮革城与阿里云达成合作,共同推动海宁皮革城数字化转型。此次数字化转型分为线上和线下两个部分,既为线下铺位调整、营销升级等提供指南,也推动线上产业链上下游的进一步深度融合。
415 0
解决方案应用实例 |阿里云x海宁皮革城,共同推动海宁皮革产业带数字化升级