云效助力新零售运维效能提升之路

简介: 2018云栖大会南京峰会,阿里巴巴技术专家 乔斌带来云效助力新零售运维效能提升之路的演讲。首先,由父女逛无人超市的案例引申出零售下的缩影,即它是根据大数据的分析向顾客推送产品的。其次,讲述了新零售面临的巨大挑战有快速发现故障,减少故障以及怎样快速从故障中恢复。

2018云栖大会南京峰会,阿里巴巴技术专家乔斌带来云效助力新零售运维效能提升之路的演讲。首先,由父女逛无人超市的案例引申出零售下的缩影。其次,讲述了新零售面临的巨大挑战以及怎样快速从故障中恢复。再次,对基础设施链路故障与应用链路故障进行了深刻的分析并提出了解决路径。最后,将解决方案实施前和实施后进行了对比发现发布效率、常规运维效率、故障下降率都得到了提高。
数十款阿里云产品限时折扣中赶快点击这里领券开始云上实践吧!
直播视频请点击
以下为精彩视频内容整理:

零售下的缩影

新零售的新是新在它是数字化的过程。首先举一个小小的案例:在国外,有一对父女走进了一家无人超市,其中女儿年仅16岁,超市推荐给两父女孕妇用的产品,父亲很是生气,便打电话给无人超市的供应商并将其骂了一顿。超市是根据大数据的比对进行推荐的,它将女孩之前的饮食习惯与之后的饮食习惯进行了对比,发现了差异,就认为女孩可能怀孕了。过了几天,父亲发现女儿真的怀孕了便立刻给超市的供应商打电话道歉。

_1


新零售后应用由新零售前的1倍增加到新零售后的2.5倍。新零售后应用多了使得交互关系变复杂了,从而使得故障也变多了。而新零售前仅需要一个库存系统,一个会员系统,一个财务系统发布上去便可以应用了。
新零售企业以及传统企业在转型过程中会有数字化程度变高、故障激增、故障影响扩大、工作量激增等基础构架的问题。

案例情景在现

_2


某商场的停车场的访问系统出现了故障,进来的车辆无法有序的出行,解决的方案是保安进来登记,进行手工收费,然而有些人没有带现金,便用支付宝找身边的人换取现金。停车场出现故障的原因是网络流量使得监控出现了问题,最后通过重启入口的路由器解决了问题。

_3


某店返券出现了故障,顾客消费完后反代金券,但代金券却反不出来,原因是发布的时候系统的配置出现了变更,使得代金券的日期改了,然而由于中间没有一个很好的版本管理和发布管理使得工作人员很难找到bug的源头。

新零售运维面临的挑战

_4


目前新零售运维面临的问题如下:
  • 快速发现故障:从而找到相关的工作人员来维护秩序,防止出现不可控的局面。
  • 减少故障:在线上时做好调试。
  • 快速从故障中恢复:在故障中恢复也是当前最核心的的挑战。

链路分析

_5


用户在门店外有两种途径可以进行访问,第一种是通过收银机、打印机、pos机到前置机去访问数据库。第二种是通过手机设备app进行访问。
在分析链路的过程中可以总结成两个大方面会出现故障:
  • 基础设施链路故障
  • 应用链路故障
    在这个链路分析中。首先,前置机可能因为没有得到变更会出现问题。其次, 门店的数据库到中央机房的数据库可能会因为网络不稳定、数据库拥塞、数据库的磁盘满载而出现故障。再次,研发部门在写代码的时候可能没有让某部分应用是成组vip待遇而出现问题。最后,有可能链路端点出现问题。

当链路有问题发生时,首先要去用户现场检查发生了什么问题,然后分析问题并能够将基础设施结构图画出来,并在链路上标出可能出现故障的地方。最后解决问题,解决问题的手段多种多样,但要学会借鉴解决问题的思路。
在企业分析历史阶段,应找出企业去年、今年、明年会出现哪些问题。同其他企业相比,解决这些问题时需要哪些东西。比较这些东西会发现不同企业在不同阶段的基本诉求是一样的。
一个业务想要持续稳定的运行需要四部分:

  • 基础设施的监控
  • 基础设施的运维
  • 应用的监控
  • 应用的运维
    将这四部分搞定,就可以让IT的基础设施和应用持续稳定的运行,着手解决这两部分的问题即将应用配置在vip上面,将基础设施配置好。

解决路径

_6


在不同基础设施上去做难度也是不一样的,基础设施的解剖就像是个外包的过程。例如,像青岛啤酒,他不会去做啤酒瓶和啤酒盖,他会将这些部分外包出去,然后去做自己擅长的部分。所以解决路径也同样需要采用折中的方案,因为无状态的应用容易直接用,而有状态的是很难应用的。这样使得整个网络架构变得简单,保证了稳定性。
解决路径的两种途径:
  • 去IaaS层依赖
  • StarOps应用运维体系
    其中在StarOps应用运维体系的基础上对应用链路进行优化时,当所有的发布还是受控的,发布一些代码的变更会出现一个新的版本,这个版本会记录变更时候的样子,配合监控,最后运行出来。如果发布变更流程走完后,发现交易指标降低了(例如所有的用户不能买东西了),发现这样异常指标的时候,可以通过在数据库里记录的机械系统,将应用退后到上一层可运行的部分,最后解决问题。

落地支撑

_7


解决用户问题的两大部分:
  • 咨询方案
  • 核心样板建设
    从企业的整个落地支撑来说,工具是不足够的,工具就像是一把很厉害的武器。从运维体系来说,当给用户做了一系列的解决方案,例如路线图,首先要减少运维出现的问题,其次规划好开发的流程,最后通过变更的管控和配合核心样本的建设做出解决方案。

先推行核心电路,从零售企业来讲,属于交易,

实施前后效果

_8


由解决方案实施前和实施后的对比可以发现发布效率提高10倍、常规运维效率提高3倍以及故障下降了1倍。
本文由云栖志愿小组毛鹤整理编辑
相关实践学习
流水线运行出错排查难?AI帮您智能排查
本实验将带您体验云效流水线Flow的智能排查能力,只需短短1-2分钟,即可体验AI智能排查建议。
ALPD云架构师系列 - 云原生DevOps36计
如何把握和运用云原生技术,撬动新技术红利,实现持续、安全、高效和高质量的应用交付,并提升业务的连续性和稳定性,这是云原生时代持续交付共同面对的机会和挑战。本课程由阿里云开发者学堂和阿里云云效共同出品,是ALPD方法学云架构师系列的核心课程之一,适合架构师、企业工程效能负责人、对DevOps感兴趣的研发、测试、运维。 课程目标 前沿技术:了解云原生下DevOps的正确姿势,享受云原生带来的技术红利 系统知识:全局视角看软件研发生命周期,系统学习DevOps实践技能 课程大纲: 云原生开发和交付:云研发时代软件交付的挑战与云原生工程实践 云原生开发、运行基础设施:无差别的开发、运行环境 自动部署:构建可靠高效的应用发布体系 持续交付:建立团队协同交付的流程和流水线 质量守护:构建和维护测试和质量守护体系 安全保障:打造可信交付的安全保障体系 建立持续反馈和持续改进闭环
相关文章
|
7月前
|
运维 监控 Kubernetes
“你那边修好了吗?”——DevOps时代,运维团队到底该怎么配合?
“你那边修好了吗?”——DevOps时代,运维团队到底该怎么配合?
139 2
|
5月前
|
运维 Kubernetes 测试技术
应用多、交付快,研发运维怎么管?看云效+SAE 如何一站式破局
通过在云效中创建 SAE 服务连接并关联集群,团队可将应用环境直接部署到 SAE,实现从代码提交、镜像构建到 SAE 部署的自动化流水线。该集成打通了研发与运维的壁垒,特别适用于应用数量多、团队规模大、交付节奏快的组织,助力企业实现敏捷、可靠的持续交付。
|
7月前
|
敏捷开发 运维 数据可视化
DevOps看板工具中的协作功能:如何打破开发、测试与运维之间的沟通壁垒
在DevOps实践中,看板工具通过可视化任务管理和自动化流程,提升开发与运维团队的协作效率。它支持敏捷开发、持续交付,助力团队高效应对需求变化,实现跨职能协作与流程优化。
|
6月前
|
机器学习/深度学习 人工智能 运维
DevOps 不香了?可能是你还没用上“智能运维”!
DevOps 不香了?可能是你还没用上“智能运维”!
210 0
|
运维 监控 Devops
DevOps文化下的企业运维转型
【8月更文挑战第22天】在数字化转型的浪潮中,DevOps不仅仅是一种技术实践,更是一种企业文化。本文将探讨如何在DevOps文化的引导下,实现企业运维的高效转型,包括理念更新、流程优化和团队协作等方面。我们将一起思考如何打破传统壁垒,构建一个更加灵活、高效和协同的运维体系,以应对不断变化的市场和技术挑战。
279 1
|
运维 监控 Devops
DevOps文化下的自动化运维实践
【8月更文挑战第30天】在DevOps的浪潮中,自动化运维不再是选择题而是必答题。本文将深入浅出地探讨如何通过脚本和工具实现日常运维任务的自动化,从而提升效率,减少人为错误,确保系统的稳定性和安全性。我们将一起学习编写简单的自动化脚本,并探索如何使用现成的自动化工具来简化我们的工作。
|
弹性计算 运维 网络协议
卓越效能,极简运维,Serverless高可用架构
本文介绍了Serverless高可用架构方案,当企业面对日益增长的用户访问量和复杂的业务需求时如何实现更高的灵活性、更低的成本和更强的稳定性。
|
弹性计算 运维 Serverless
卓越效能,极简运维,体验Serverless高可用架构,完成任务可领取转轮日历!
卓越效能,极简运维,体验Serverless高可用架构,完成任务可领取转轮日历!
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
907 30
|
运维 监控 Devops
DevOps实践:构建高效运维流程
【9月更文挑战第3天】在当今快节奏的技术环境中,高效的运维流程是企业成功的关键。本文旨在揭示如何通过DevOps实践,构建一个既灵活又高效的运维体系。我们将深入探讨自动化工具、持续集成与持续部署(CI/CD)策略以及监控和日志管理的最佳实践,以实现运维工作的优化。文章将用简洁明了的语言,结合生动的比喻,带领读者走进DevOps的世界,学习如何将理论应用到实际工作中去。