《阿里云可观测最佳实践》——6.核桃编程(1)

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
简介: 《阿里云可观测最佳实践》——6.核桃编程(1)

6

6 核桃编程

  基于ARMS的核桃编程前端可观测性建设之路


1 关于核桃编程


在互联网时代的今天,新时代家长愈发注重孩子的素质教育,注重培养孩子人工智能方向的才能。少儿编程教育就是在这样的背景下快速发展起来。


核桃编程作为少儿编程教育行业的领导者,致力于以科技手段促进编程教育,通过人工智能、自适应学习等先进技术和科学的教育方法,启发中国孩子的学习能力。自2017年8月成立以来,核桃编程的业务量飞速发展,仅仅3年时间付费学员人数就突破了200万,并实现了单月营收过亿。


2 业务场景 & 可观测需求介绍


随着核桃编程业务快速增长,核心应用的系统规模和系统复杂度经历翻天覆地变化。技术团队不断通过新兴技术手段维护整套系统架构的技术先进性。在3年时间里,技术团队至少对整体系统架构进行了6次以上重大重构,涉及微服务化、容器化、分布式数据库等重要技术,并尝试通过Serverless提升系统弹性伸缩能力。疫情期间,当系统负荷呈现数倍突增,核桃编程的系统架构经受住了考验。


随着系统架构变得复杂,如何提升分布式系统的可观测性成为技术团队面对的重要要挑战。在线上编程教学场景中,用户一个简单的操作,就有可能涉及到前后端系统多次交互,以及多个服务端微服务应用之间相互调用,甚至还会受到第三方服务接口影响。


任何环节出现故障或者性能瓶颈,都会导致用户体验断崖式下跌,而用户体验又是决定品牌形象的核心要素,所以对于核桃技术团队而言,保证优秀的用户体验需要在系统可观测性建设上做到这几个方面:


全面而且实时的了解系统每一个对外接口的性能质量。

通过数据掌握最终用户与系统交互时感受到的系统健康程度。

当系统健康程度存在问题时,技术团队能第一时间发现问题,并及时处理。

处理问题时,能迅速定位到系统瓶颈和故障源。


任何一个技术团队要想围绕着这几个方面,从零开始建设分布式可观测体系,都是一项非常艰巨的任务,好在业界对于分布式可观测性的建设,已经有了不少成熟的方法论以及开源项目可以参考。


通过引入Skywalking,Prometheus等开源技术,核桃技术团队建立完整的分布式可观测体系,能够对服务端复杂微服务应用实现全链路追踪,并通过统一的日志服务体系收集分析业务日志。这样的对于系统稳定性以及用户体验提升是立竿见影的:当系统服务端的任何一个环节出现故障或性能瓶颈的时候,技术团队都能第一时间得到通知,并快速定位问题,进行针对性处理。


相对于成熟的服务端监控技术,整个业界在客户端监控领域的技术方案一直比较欠缺。海量用户使用不同厂家、不同操作系统、不同屏幕分辨率终端设备,分布在不同地域,通过不同网络运营商进行接入,甚至存在复第三方依赖,包括CDN、第三方统计脚本、页面嵌套等方面。当用户体验遇到问题时,如果仅仅拥有服务端监控手段,很难第一时间确认问题的根源到底在于前端还是后端。即便能够排除服务端的问题,前端用户体验也受到页面渲染、JavaScript执行、网络质量、第三方接口服务质量等方面的影响,为进一步排查问题留下了非常多的挑战。


因此,技术团队计划通过前端JavaScript做自定义的埋点,将最终用户的各种行为实时上报给服务端进行统计,以第一时间了解到用户体验。但具体到业务埋点、数据采集、聚合分析、视图展现等层面都有非常多工作需要做,是一个浩大的工程。绝大多数技术团队而言,投入如此多的精力来建设这样一套前端监控方案都是不现实的。


《阿里云可观测最佳实践》——6.核桃编程(2): https://developer.aliyun.com/article/1227051


相关文章
|
15天前
|
弹性计算 Prometheus 监控
阿里云可观测 2024 年 5 月产品动态
阿里云可观测 2024 年 5 月产品动态。
|
1月前
|
弹性计算 运维 Java
最佳实践:阿里云倚天ECS在千寻位置时空智能服务的规模化应用
阿里云、平头哥及安谋科技联合举办的飞天技术沙龙探讨了倚天Arm架构在业务创新中的应用。活动中,千寻位置运维专家分享了将核心业务迁移到倚天处理器ECS实例的成功案例,强调了倚天处理器的高能效比和降本增效优势。迁移过程涉及操作系统、CICD系统和监控系统的适配,以及业务系统的性能测试。目前,千寻已迁移了上千台ECS实例到倚天处理器,实现了成本和效率的显著提升。未来计划继续扩展倚天处理器在核心业务和K8S中的应用。
|
9天前
|
人工智能 自然语言处理 算法
阿里云PAI大模型评测最佳实践
在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。
|
1月前
|
监控 Cloud Native 数据挖掘
飞天发布时刻|阿里云可观测全速演进
5 月 22 日 10:00,阿里云飞天发布时刻,阿里云应用实时监控服务 ARMS 宣布全面升级。这次发布不仅标志着阿里云技术实力的演进,更是对企业需求深刻洞察后的创新实践。
1019 15
|
1月前
|
自然语言处理 监控 Cloud Native
对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合
阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。
41903 9
|
7天前
|
人工智能 自然语言处理 测试技术
通义灵码评测: 阿里云出品通义大模型AI代码编程辅助工具
通义灵码是阿里云出品的一款基于通义大模型的AI智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/OpenAPI 的使用场景调优,助力开发者高效、流畅的编码。
224 0
|
1月前
|
弹性计算 Java 关系型数据库
最佳实践:阿里云倚天ECS在千寻位置时空智能服务的规模化应用
当前,千寻已有上千台倚天ECS实例在支撑线上核心业务。
|
1月前
|
Kubernetes Cloud Native Devops
【阿里云云原生专栏】DevOps与云原生的融合:阿里云CI/CD流水线最佳实践
【5月更文挑战第23天】阿里云融合DevOps与云原生技术,提供高效CI/CD解决方案,助力企业提升研发效能。通过云效平台,集成代码管理、构建服务、容器服务、持续部署及监控日志组件,实现自动化研发流程。案例中,应用从GitHub构建到Kubernetes部署,全程无缝衔接。借助阿里云,企业能快速构建适应云原生的DevOps体系,以应对复杂需求和提升市场竞争力。
84 1
|
15天前
|
人工智能 监控 Cloud Native
多款可观测产品全面升级丨阿里云云原生 5 月产品月报
多款可观测产品全面升级丨阿里云云原生 5 月产品月报。
|
1月前
|
人工智能 自然语言处理 JavaScript
阿里云发布 AI 编程助手 “通义灵码”——VSCode更强了 !!
阿里云发布 AI 编程助手 “通义灵码”——VSCode更强了 !!
373 3