支付宝故障,如果你来设计会怎么做?

简介: 支付宝官方发布公告,解释了因配置错误导致部分用户享受立减优惠的情况。明确表示不会追回已发放的优惠,并提醒用户谨防诈骗短信。针对此次事件,作者从角色缺失、防呆设计、程序预检、沙箱与灰度发布及AI审核五个方面,探讨如何避免类似运营失误,强调了流程优化和责任分担的重要性。

官方公告

  1. 支付宝今日凌晨发文称:昨天下午由于我们的一个失误,导致小部分用户在支付时享受了立减优惠,关心我们会不会把优惠追回。有几个事实在此澄清:

  2. 支付宝官方没有发送任何资金追回短信,如果你收到了下图短信,千万不要点,以免上当受骗,也请大家帮忙相互转告。

  3. 失误是怎么发生的?其实是我们在支付宝某个常规营销活动后台配错了营销模板,把优惠额度和优惠金类型都写错了。

  4. 既然是我们的错,成本和责任必须我们自己承担。针对已经发出的营销优惠金,支付宝不会向用户追款,请大家安心。

如果我来做

早上看到支付宝的公告,在大巴上随便想了一些,拿出来和大家讨论下。
运营人员配置错导致的线上故障经历太多了。这里面的责任不能简单的归咎到运营人员。我结合自己的一些经历,从以下几个方面来考虑讨论:

  1. 角色的缺失
  2. 防呆设计
  3. 程序预检
  4. 沙箱 & 灰度
  5. AI 审核

角色的缺失

现在大家的审批人都是往上追,领导层到底是对这个方案负责还是仅仅是“知道了,你们去落地吧”?其实审批流很有问题,现在大多数的审批人更像是一个抄送人,没有一个真正负责测试验证的人,这是致命的问题。

防呆设计

之前有一个重大活动,运营配置的参会短信提醒的发送时间,比实际大会时间开始晚了一个月,说白了就是10月选择到了11月,其他都正常。和这次支付宝的故障很类似,谁的责任?严格来说,配置人员、审核人员、产品、测试、程序员都有责任。

为什么产品设计的时候没有这种防呆设计(Poka - Yoke)?这比较考验产品经理的能力,大多数产品经理只能做到正向思维,顺着运营的需求,对这方面的思考很少。出了故障都反应过来了,在选择短信提醒发送时间的地方,最晚只能选择到大会开始前

“敏捷开发”是把双刃剑,敏捷开发最后落到实处就是快速迭代快速试错。凑合能用、先上再说、出问题再改。

退一步说,程序员在实现产品逻辑的时候也要考虑这种“越界”情况,大会已经结束,大会开始提醒短信也不应该能发送。始终保持用户输入的数据都不可信原则。

实际情况,每天配置n条规则,早麻木了,如果产品上没设计好,出问题是迟早的,配置的运营人员和审核人员。他们是最难做的。

昨天支付宝发生的故障,虽然我们不知道其营销后台是什么样的,但是肯定在交互上做一些防呆设计,是不是可以从选择项上做联动,规避掉一些逻辑漏洞。

防呆设计保护运营,人人有责。

程序预检

运营人员上线页面包含了未对外发布的资源,导致上线之后大量用户无法正常打开页面。最后开始可能审批人很仔细的看了。

架不住大家天天审核一大堆。而且审核只是他们的工作中很少的一部分,通过等于表示我已知晓,并未有一个真正审核把关的角色。

而且还有一些风险,在公司内部能访问的资源,在公司测试根本发现不了,发布上线之后。客户根本无法访问。所以依靠运营人员自检是不可靠的,需要通过严格的程序预检。

针对上面的情况,我在发布之前都会去检测前端资源是否能正常打开,如果不能打开整个系统发布失败,健康检查不通过。拦截了不少类似的故障。当然这是非常简单的一个场景,但是思路是想通的,只是预检的工作量的问题。

程序预检保护运营人人有责。

沙箱 & 灰度

我想灰度肯定是有的,想必昨天黑色5分钟,应该也是很少的一部分用户,比如5%,但是整体基数太大。说实话没做过这么支付宝这么重要的系统,这部分是我自己YY,是不是可以引流一部分线上流量在沙箱里跑1小时?就像我们发布的时候发布第一批必须强制暂停1小时,发现一些大盘数据异常,则无法进入下一步审批环节。

AI 审核

现在大模型可以帮我们去对数据内容按照提示词去进行分类,是不是也可以把营销策略给到大模型去识别是否合理,这里prompt也不是说简单的一句话,根据实际业务来也不一定比直接的代码逻辑简单。

但是这是一个趋势,毕竟我们写在写稿子有 AI 校稿,写代码有 AI review ,审批流为什么不能加 AI 审核呢?公司内部天天谈 AI 的应用,可能觉得明面上的 ROI 太低,导致没有人投入。

就这

时间匆忙就想到这些,希望大家不出故障,2025 没有 bug。

目录
相关文章
|
Web App开发 存储 传感器
大模型编程(4)- 大白话 agent
本文介绍了大模型中的`agent`概念及其作用。通过类比日常使用的浏览器作为访问网页的代理,解释了`agent`在大模型中的角色:简化复杂操作、增强功能性。文中提到,即使是简单的功能实现(如查询天气),也可以视为`agent`的应用。进一步探讨了一个典型的智能家庭助理`agent`的工作流程,包括感知环境、思考决策和执行行动三个主要阶段。这不仅帮助理解`agent`的功能,也为开发更复杂的`agent`提供了参考。
531 3
|
安全 网络协议 Shell
渗透测试工具用法技巧入门到进阶
零基础网盘 百度网盘-19****394的分享 新手入门过程 看完 后面有进阶过程 简单工具
509 0
|
8月前
|
存储 Java API
MinIO Java SDK 7.1.4 升级到 8.5.17 需要注意什么
现在我需要你帮我分析对比这个两个sdk在对外的接口设计上是否有不兼容的变更
660 5
|
8月前
|
XML Java 数据格式
微信不封号无限加人软件,微信一键自动加人软件,java实现批量化加人
本项目包含手机号生成工具与附近人列表展示功能。手机号工具支持批量生成、格式验证及CSV导出,可自定义前缀生成符合中国规则的随机号码。
|
机器学习/深度学习 数据可视化 网络架构
增强深度学习模型的可解释性和泛化能力的方法研究
【8月更文第15天】在深度学习领域,模型的准确率和预测能力是衡量模型好坏的重要指标。然而,随着模型复杂度的增加,它们往往变得越来越难以理解,这限制了模型在某些关键领域的应用,例如医疗诊断、金融风险评估等。本文将探讨如何通过几种方法来增强深度学习模型的可解释性,同时保持或提高模型的泛化能力。
1520 2
|
开发工具 git 监控
刺激!我在网上帮警察叔叔抓了一个贼
刺激!我在网上帮警察叔叔抓了一个贼
261 5
|
应用服务中间件 Linux nginx
Mac os 安装 nginx 教程(success)
这篇文章是关于如何在Mac OS系统上使用Homebrew安装nginx及其依赖,并解决安装过程中可能出现的权限问题。
2005 0
Mac os 安装 nginx 教程(success)
|
数据可视化 SDN Python
复动力系统 | 混沌 | Lozi 映射吸引子的可视化与交互式探索
该文介绍了一篇关于Lozi映射吸引子可视化和交互式探索的文章。Lozi映射是混沌理论中的一个模型,展示非线性动力系统的复杂性。通过Python和matplotlib,作者实现了Lozi映射的可视化,并添加交互功能,允许用户缩放以详细观察混沌吸引子。文中还给出了Lozi映射的数学定义,并提供了Python代码示例,演示如何绘制和动态调整吸引子的显示。
|
安全 Java 应用服务中间件
当遇到非法 URL 参数时,如何保障网页正常打开
访问如`http://example.com?a@b=1`的链接出现400 Bad Request错误,这是因为Tomcat不允许请求目标中含有非法字符。Spring Boot 2可通过配置`server.tomcat.relaxed-query-chars`来允许特殊字符,但这样做可能引入安全风险。因此,建议在Nginx层使用`rewrite_by_lua_block`和`ngx.redirect`进行重定向,将非法字符替换为合法形式,如`http://example.com?ab=1`,同时记录日志以监控。此方案能避免直接修改后端代码,提高安全性。
848 0