Bilibili资深运维工程师:DCDN在游戏应用加速中的实践

简介: bilibili资深运维工程师李宁分享《DCDN在游戏应用加速中的实践》从bilibili游戏应用的效果和成本入手,深入浅出地分享DCDN全站加速在游戏加速场景中的应用。

日前,云栖大会新一代CDN的技术突破与应用实践专场中,bilibili资深运维工程师李宁进行了《DCDN在游戏应用加速中的实践》主题分享,从bilibili游戏应用CDN的效果和成本入手,深入浅出地分享DCDN全站加速在游戏加速场景中的应用。

bilibili的业务部署架构及CDN的应用

bilibili一直以来是作为中国Z世代高度聚集的文化社区而被大家熟知,已经成为了国内二次元游戏的主要分发渠道和发行方。在公司不断发展过程中,CDN扮演着不可或缺的角色。

简单的七层应用游戏的部署架构如下图所示,业务的后端以中心化部署的方式完全隐藏在公共云的网络内,出向网络经过NAT转发,业务的入口只通过公网负载均衡进行暴露,静态资源存放在对象存储上,然后从用户动静态的请求全部经过CDN进行转发,这样的方式不仅能进行常规静态资源的缓存加速,也能帮助隐藏源站,并进行相应的DDoS防护。

image.png

李宁介绍到:bilibili对CDN的使用大概分三个阶段,初期业务规模比较小,主要通过基于云内专线自建代理的方式实现区域加速;随着业务规模增加,运维管理问题和安全问题暴露, bilibili基于不同的缓存策略,在商业静态CDN上去实现动静态请求的分发,虽然解决了自建带来的管理和安全问题,但是也带来了新问题,比如静态CDN中间源大量回源过载、静态CDN链路过长,多级代理导致响应耗时增加等等;直到近两年,市场上出现了专门针对动态请求加速的产品,在原有CDN功能丰富度提升的基础上,通过智能路由带来了更好的加速质量提升。

游戏应用运维工作对CDN的核心诉求

在游戏运维的日常工作里经常会遇到以下场景:静态突发流量报备不及时,单一厂商无法全部承接,导致业务进退两难,业务和运维背着炸药包上线;游戏热更中大量的刷新预热需求,带给运维带来繁重的工作;热点游戏海外用户访问质量如何保障;国内小运营商环境中各种劫持与弱网传输;游戏业务突发式增长对弹性伸缩、快速交付的挑战等等。

简单总结,业务对运维的需求就是:

a) 热点资源、导致流量突发运维需要做好保障
b) 保障业务发展过程中快速交付、并且保障易用性
c) 业务的基础网络链路实现跨境优化
d) 要能覆盖国内的小运营商
e) 需要有政企关系,具备推进运营商快速处理问题的能力

基于上述需求综合考虑,bilibili选择使用公共云CDN,而非自建的形式。其业务对云CDN的使用运维有以下诉求:
a) 业务接入的时候控制台要快、简单,接口要完善、可编程,功能丰富、不支持的功能也要支持定制化
b) 产品需要支持自动调度、方便的配置和内容管理,底层要对跨境网络进行优化
c) 针对海量的CDN数据有简化分析的方案,以便数据管理运营
d) 要有丰富的报警指标、在业务报障的时候辅助运维进行决策

image.png

bilibili选择使用阿里云全站加速进行业务分发

为了解决以上问题,bilibili使用阿里云全站加速产品支持游戏应用内容的分发加速。在接入之后,质量有明显的提升,平响耗时降低了32%,首包的耗时降低了18.6%。同时,当异常发生的时候,CDN告警的收敛聚合,可以与源站监控报警进行比对,用于快速的排除故障。

image.png

全站加速是阿里云自主研发的融合了动态加速和静态加速技术的CDN产品,解决了页面动静态资源混杂、跨运营商、网络不稳定、单线源站、突发流量、网络拥塞等诸多因素导致的响应慢、丢包、服务不稳定的问题,提升全站性能和用户体验。对于源站的适配,全站加速产品无需对服务器资源进行调整,会智能的区分动态和静态内容并分别加速,这也是目前比较适合游戏应用的加速方案。

全站加速可以提供传输加速、稳定均衡、HTTPS、基础防护和管控灵活五大价值。

传输加速:一站式静态、动态资源分离,静态资源可以基于遍布全球的边缘节点缓存进行加速,动态资源利用智能路由、传输协议优化、压缩传输、链路复用等技术实现回源加速;
稳定均衡:通过全网节点的负载均衡,以及主备源站、有序回源、源站健康检查等多重策略,确定高并发情况下的业务稳定运行以及加速效果平稳。
HTTPS:国内运营商环境复杂,网站被劫持,站点内容遭篡改,仅使用HTTP协议传输可能会有用户动态内容泄露风险,需要寻求更安全高效的网络链路和内容分发途径,那么阿里云支持全链路HTTPS安全加速,提供多种证书格式,支持keyless方案,满足客户对于安全访问的不同场景需求。
基础防护:在DCDN之上逐渐集成云安全能力,打造边缘安全能力。在更接近攻击源产生的位置,通过覆盖全球各地的DCDN边缘节点进行防劫持、防篡改、防DDoS攻击,减轻源站压力。
管控灵活:基于缓存多源优化,可以控制每个回源量,从而能够对节省源站的带宽,以此保护源站,有序回源这一块,当活动突发的时候,DCDN可以通过有序回源的策略来明确哪些请求优先返还源站,哪些可以通过队列的方式来控制源站的回源量,从而能达到稳定均衡的一个效果。

bilibili实践经验

针对使用CDN的效率以及成本几大问题,bilibili具备以下实践经验:
第一,在交付效率上,bilibili通过gitops加基础设施及代码实现了一套资源编排,CDN也包含其中,研发通过选择CDN的配置模板(比如CDN多线策略,缓存配置模板)生成资源堆栈,再结合流程审批实现分钟级别的资源交付,在交付过程中我们力求让使用者只做选择题,少做问答题,减少反复沟通的成本;当然平台也集成了很多的小工具,比如最高频的刷新预热操作,我们将不同云平台的需求收敛到统一的界面,提供给研发自助进行操作;还有ip归属查询这类小工具,尽量实现研发自助,以减少沟通提升人效。
第二,针对成本的问题,强调可计价,可度量;在CDN成本优化方面,首先要先知道钱花到了哪里,通过云计费api拿到实时数据,进行简单地同比环比,对成本突发进行预警,然后人工干预及时止损;第二是花一样的钱做更多的事,通过业务数据压缩以及开启云厂商的智能压缩功能进行技术优化,同时,提升静态缓存命中率,降低对象存储回源;第三是做一样的事情花更少的钱,就需要更优的计费策略和更优的核算策略。

对未来游戏CDN的思考

李宁表示:我理解的运维工作的主要目标之一就是可控,CDN可控就是实现智能调度,未来会围绕着数据治理进行一些尝试:

a) 通过第三方拨测、客户端数据上报、业务全链路监测,收集到完善的业务数据
b) 在此基础上进行多维度的分析,比如异常情况下,进行多维度的数据关联聚合,减少多个运维监控组件之间切换排查
c) 最终结合少量的人工辅助决策,去实现智能调度

点击了解bilibili使用的全站加速产品详情
点击了解秒懂CDN活动详情,更多CDN产品技术直播,听专家讲解各大场景最佳实践

目录
相关文章
|
7天前
|
运维 应用服务中间件 Linux
自动化运维的利器:Ansible在配置管理中的应用
【10月更文挑战第39天】本文旨在通过深入浅出的方式,向读者展示如何利用Ansible这一强大的自动化工具来优化日常的运维工作。我们将从基础概念讲起,逐步深入到实战操作,不仅涵盖Ansible的核心功能,还会分享一些高级技巧和最佳实践。无论你是初学者还是有经验的运维人员,这篇文章都会为你提供有价值的信息,帮助你提升工作效率。
|
11天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
9天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
35 6
|
8天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
9天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
10天前
|
运维 Ubuntu 应用服务中间件
自动化运维工具Ansible的实战应用
【10月更文挑战第36天】在现代IT基础设施管理中,自动化运维已成为提升效率、减少人为错误的关键手段。本文通过介绍Ansible这一流行的自动化工具,旨在揭示其在简化日常运维任务中的实际应用价值。文章将围绕Ansible的核心概念、安装配置以及具体使用案例展开,帮助读者构建起自动化运维的初步认识,并激发对更深入内容的学习兴趣。
32 4
|
8天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
9天前
|
运维 安全 应用服务中间件
自动化运维的利剑:Ansible在配置管理中的应用
【10月更文挑战第37天】本文将深入探讨如何利用Ansible简化和自动化复杂的IT基础设施管理任务。我们将通过实际案例,展示如何用Ansible编写可重用的配置代码,以及这些代码如何帮助运维团队提高效率和减少人为错误。文章还将讨论如何构建Ansible playbook来自动部署应用、管理系统更新和执行常规维护任务。准备好深入了解这个强大的工具,让你的运维工作更加轻松吧!
25 2
|
15天前
|
数据采集 机器学习/深度学习 运维
智能化运维在现代IT系统中的应用与挑战####
【10月更文挑战第29天】 本文探讨了智能化运维(AIOps)在现代IT系统中的重要作用及其面临的主要挑战。通过引入机器学习和大数据分析,智能化运维能显著提高系统稳定性、降低运营成本,并增强故障预测能力。然而,数据质量、技术整合及安全性等问题仍是其广泛应用的主要障碍。本文详细分析了这些挑战,并提出了相应的解决方案和未来发展趋势。 ####
38 5
|
16天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####