删库跑路后的现场还原

2023-03-09 403

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 遭遇删库跑路怎么办？可观测性是研发质量和产品的试金石，是企业城墙的基石，这里拿删库跑路举一个栗子，说明可观测性的重要程度，用好可观测性，能更了解系统，扩宽业务。

网络异常，图片无法展示

数据库是公司重要资产，在此类重要资产平台上，尤其是重要操作，应该保持敬畏心。

数据库被删了？可怎么证明是某某某删了数据库？或者根本都不知道谁删除了数据库，又没抓现行，该怎么办？

正文

第一步证据先行，有录屏有真相

删库动作的`录制回放`

录制回放让团队能清楚了解和学习用户路径和行为，其中对于关键页面诸如删除等高价值的动作，可以开启录制回放功能，比如下图，就是某一用户某一行为的屏幕录制情况。

网络异常，图片无法展示

删库成功的页面截图

针对录制回放的内容，可以看到用户点击删除按钮这一高风险行为。

网络异常，图片无法展示

第二步录屏背后是详细的用户访问数据

在`rum`中查看`用户会话`

在用户使用产品的那一刻，用户体验就开始了。用户体验数据洞见很多，加购物车、下单、视频播放等高价值按钮背后的性能等相关数据和业务息息相关：比如下图展示了成功删除数据库的提示弹窗。

网络异常，图片无法展示

发现用户登录并浏览数据库平台的详细信息

每一次用户会话中，记录着用户的来源、访问时长，以及用户行为，这里面就包含对页面的加载（切换）和按钮点击。下图便是一个用户登录数据库管理平台后，0-20分钟以内的用户旅程：

网络异常，图片无法展示

发现用户点击删除库的按钮的详细信息

链接或者按钮背后隐藏着逻辑和用户动机，充分利用能转化良好化学反应。反之，在用户旅程中，也能看到用户点击删除数据库的按钮的行为，如下图所示：

网络异常，图片无法展示

点击按钮成功触发删除数据库的接口请求

为了明白请求或行为在系统中的'前世今生'，链路追踪已经成了必备，在下图中，用户行为触发的请求的完整上下文就被“追踪”到了：

网络异常，图片无法展示

后台处理接口请求

在产品使用流畅度中，丝滑不一定是卖点，但“慢”肯定是用户卡点，通过全链路链路追踪综合分析，可以得到请求耗时占比，进一步定位卡在哪里（前端、后端、网络），详情见下图：

网络异常，图片无法展示

第三步成功删库的`链路详情`

前后端加上数据库形成可视化闭环，构成的业务链路，能够高效定位业务情况，下图能完整看出一次删库的效率：

网络异常，图片无法展示

第四步自动关联删库日志

让全链路追踪能锦上添花的要数自动关联日志的功能了，下图能清晰看到链路所产生的日志：

网络异常，图片无法展示

以上我们便通过用户删库的录屏，用户行为、链路信息、操作日志等，还原了删库现场。当然，其中涉及了很多技术内容，下面整理了其中一些常见问题

相关技术点的FAQ ：

1. 如何针对关键步骤开启`录制回放`功能

以 删除按钮 为例，用户点击删除按钮后可以开启 录制回放功能

function deleteDB(){
        showConfirm(deleteDB).then((yes,no)=>{
            if(yes)=>[             datafluxRum.startSessionReplayRecording();]
        })
    }
复制代码

2. `录制回放`是否涉及`密码`等用户私密信息

出于数据安全考虑，任何情况下，以下元素都会被屏蔽：

password、email 和 tel 类型的输入
具有 autocomplete 属性的元素，例如信用卡号、到期日期和安全代码

3 . 如何将 `用户行为`与 `后端` 进行关联

前后端关联通过http请求头的traceID进行关联，开启rum和apm简单设置即可实现关联。在rum中仅仅需要在启动时注明后端地址。以本文的后台管理系统为例，需要在启动rum时开启allowTracingOrigin这个字段，配置见下图

网络异常，图片无法展示

可以参照如下代码

window.DATAFLUX_RUM &&
    window.DATAFLUX_RUM.init({
        applicationId: "node_mongo_admin_express",
        datakitOrigin: "http://mongodb_admin:9529", // 协议（包括：//），域名（或IP地址）[和端口号]
        env: "production",
        service:"node_mongo_admin_express",
        version: "1.0.0",
        trackInteractions: true,
        allowedTracingOrigins: ["http://mongodb_admin:1234"], // 非必填，允许注入trace采集器所需header头部的所有请求列表。可以是请求的origin，也可以是是正则
        sessionSampleRate: 100,
        sessionReplaySampleRate: 100,
        defaultPrivacyLevel:  'allow',      
      });
      window.DATAFLUX_RUM && window.DATAFLUX_RUM.startSessionReplayRecording()
复制代码

4. 如何自动将采集的`日志`和`链路`信息进行关联

需要将traceID注入日志，进行切分，就可以实现链路和日志的关联。本文仅用一行进行了关联，代码见下图。

网络异常，图片无法展示

5. 如何从`后端`下钻到`数据库`

仅需要接入追踪工具即可实现下图全链路追踪,本文后端使用node的express框架，链路追踪展示图如下：

网络异常，图片无法展示

其中服务调用拓扑关系如下，也就是web端访问后端（node技术栈）的，后端调用数据库（mongo）

网络异常，图片无法展示

6. 后端支持java吗？

支持java、python、go以及.net等，接入的学习成本是有的，整体对于开发而言，接入配置问题不大。

7. 前端的技术架构或技术栈有兼容性吗？

目前不论是mpa还是spa，不论是ssr、还是csr，亦或是vue、react、jQuery等，都支持，但针对不同架构，需要选择接入的场景。

8. 还支持哪些场景？

支持的场景很多，比如：

线上告警的故障定位
开发、测试环境的bug调试
用户行为的追踪与回放
性能瓶颈的查找与性能提升

9.有关请求耗时占比，能更详细的举个例子吗？

我们以后端为例，看到db_create这个接口：

网络异常，图片无法展示

这些数据是如何统计得出的呢？感兴趣的同学可以查看下图：

网络异常，图片无法展示

其中每个部分的计算原理如下：

Queueing（队列）耗时 = Duration - First Byte - Download  
First Byte（首包）耗时 = responseStart - domainLookupStart  
Download（下载）耗时 =  responseEnd - responseStart
复制代码

更深入的技术内容，我将在今后的文章继续为大家整理。

综上所述

可观测性切入点很多，聪明的团队会观测；可观测性是研发质量的试金石，是企业城墙的基石，用好可观测性，能更多的了解系统，扩宽业务。

本文由观测云高级产品技术专家刘刚和交付工程师 苏桐桐共同撰写，其中所有截图及数据，均来自模拟数据，此外也欢迎一起探讨技术和业务。

参考词汇

adminMongo：mongo数据库管理平台
rum: 真实用户体验
apm: 应用性能管理
metrics:指标
logs：日志
trace：链路

删库跑路后的现场还原

正文

第一步证据先行，有录屏有真相

删库动作的`录制回放`

删库成功的页面截图

第二步录屏背后是详细的用户访问数据

在`rum`中查看`用户会话`

发现用户登录并浏览数据库平台的详细信息

发现用户点击删除库的按钮的详细信息

点击按钮成功触发删除数据库的接口请求

后台处理接口请求

第三步成功删库的`链路详情`

第四步自动关联删库日志

相关技术点的FAQ ：

1. 如何针对关键步骤开启`录制回放`功能

2. `录制回放`是否涉及`密码`等用户私密信息

3 . 如何将 `用户行为`与 `后端` 进行关联

4. 如何自动将采集的`日志`和`链路`信息进行关联

5. 如何从`后端`下钻到`数据库`

6. 后端支持java吗？

7. 前端的技术架构或技术栈有兼容性吗？

8. 还支持哪些场景？

9.有关请求耗时占比，能更详细的举个例子吗？

综上所述

参考词汇

云市场头条

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

删库跑路后的现场还原

正文

第一步 证据先行，有录屏有真相

删库动作的录制回放

删库成功的页面截图

第二步 录屏背后是详细的用户访问数据

在rum中查看用户会话

发现用户登录并浏览数据库平台的详细信息

发现用户点击删除库的按钮的详细信息

点击按钮成功触发删除数据库的接口请求

后台处理接口请求

第三步 成功删库的链路详情

第四步 自动关联删库日志

相关技术点的FAQ ：

1. 如何针对关键步骤开启录制回放功能

2. 录制回放是否涉及密码等用户私密信息

3 . 如何将 用户行为与 后端 进行关联

4. 如何自动将采集的日志和链路信息进行关联

5. 如何从后端下钻到数据库

6. 后端支持java吗？

7. 前端的技术架构或技术栈有兼容性吗？

8. 还支持哪些场景？

9.有关请求耗时占比，能更详细的举个例子吗？

综上所述

参考词汇

云市场头条

热门文章

最新文章

相关电子书

第一步证据先行，有录屏有真相

删库动作的`录制回放`

第二步录屏背后是详细的用户访问数据

在`rum`中查看`用户会话`

第三步成功删库的`链路详情`

第四步自动关联删库日志

1. 如何针对关键步骤开启`录制回放`功能

2. `录制回放`是否涉及`密码`等用户私密信息

3 . 如何将 `用户行为`与 `后端` 进行关联

4. 如何自动将采集的`日志`和`链路`信息进行关联

5. 如何从`后端`下钻到`数据库`