iGraph自动化流量预估及大规模数据智能调度

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
推荐全链路深度定制开发平台,高级版 1个月
简介: ## 引言 iGraph是一个在线图存储和查询服务,从2015年年初正式上线到现在,已经平稳经历了3次双十一大促的历练。这一些长期投入让iGraph赢得了越来越多集团客户的信任,其中包括集团的核心搜索和推荐业务。

引言

iGraph是一个在线图存储和查询服务,从2015年年初正式上线到现在,已经平稳经历了3次双十一大促的历练。在这几年的发展过程中,我们持续改进用户接入体验、跟TPP推荐业务平台一站式集成、在线服务质量持续保持稳定,这一些长期投入让iGraph赢得了越来越多集团客户的信任,其中包括集团的核心搜索和推荐业务。随着支撑越来越多集团业务,iGraph已经发展成为集团在线服务架构中一个非常重要的基础服务设施。为了支撑iGraph业务的快速增长,今年上半年我们开发了AutoUmars基础管控组件,并基于此重构了iGraph管控系统。在刚刚过去的2017双十一大促中,iGraph系统的各项核心业务指标达到了前所未有的峰值。

下面我们分享一些今年大促中iGraph的相关业务数据:

  1. 在中美俄三地提供了万级别表数目的在线并发访问。
  2. Proxy峰值入口访问QPS 千万级别,Search访问QPS峰值达到亿级别
  3. 双十一当天完成数万次索引构建,产出数千TB的索引数据,完成数据回流数万次。

为了能够高效稳定地支撑今年双十一,iGraph团队面临的问题非常具有挑战,但是我们就是喜欢解决具有挑战的问题,也非常乐此不疲。相信大家也对我们的问题和解决方案非常感兴趣。这也是我们写这篇文章的目的——介绍iGraph团队如何通过自动化流量预估和基于机器学习的智能数据调度来高效支撑2017双十一大促!

问题定义与挑战

1. 如何预估双十一iGraph的峰值访问量?

undefined
iGraph作为一个基础查询服务,流量预估跟一般的业务系统差异非常大——不能简单通过当前流量乘以一个系数得到大促流量,主要体现在如下方面:

  • 如上图所示,iGraph调用方有上千个(仅仅TPP平台上场景的数目就超过上千个,这些场景几乎都是iGraph的调用方),并且每个调用方访问iGraph的流量特征都不一样(单次用户请求处理访问iGraph的次数、表的数目、以及每张表访问的消耗等),每个调用方的峰值QPS千差万别。
  • 有一些调用方在大促期间查询逻辑和日常的查询逻辑不一样,无法简单根据日常访问流量进行放大得到大促流量。
  • 对于一些大促常场景日常没有流量,只有大促当天才打开。

基于以上三点认识,我们就知道看似简单的流量预估对于iGraph来说并不简单。之前我们在业务体量较小的时候,是通过人肉进行跟业务方收集流量特征最终得出大促的峰值访问流量,这种出力不讨好的事情我们永远不会再这么干了,因为今年我们我们开发了自动化流量预估系统,高效自动化解决上述问题。

2. 如何将万级别表调度到不同星座,让这些星座的负载做到尽可能均衡并且兼顾业务隔离?

表加载示意 (4).svg
假设我们已经成功估算出iGraph峰值流量了,现在我们已经知道所有表的峰值QPS。但是新的问题出现了,如上图所示,那就是我们需要多少容器资源来支撑这些峰值QPS以及如何将这些表合理地部署到各个星座(在iGraph中,我们把一个小的容器矩阵称为一个星座)中。每个容器的资源是有限的,这些资源包括CPU、内存、磁盘、可以加载的表总数等等。如何将这万表调度到不同星座,使得每个星座的资源不会用超,并且尽可能让所有星座资源使用率均衡称为我们需要解决问题。这是一个带约束运筹优化问题,所幸的是我们有iDst同学(@康托,@李涛)的帮忙。iDST智能决策团队专注于与机器智能决策相关的深度学习、运筹优化技术的研究与赋能,目前已在集团内外,新零售、物流、数据中心、交通等多个行业领域得到应用。我们只要把表的相关指标信息、集群拓扑信息、当前表的部署信息提交给他们,他们就可以给我们算出一个最优的且数据迁移代价较小的新的数据部署拓扑。
当上述均衡分布的问题解决后,再来看下之前出现的业务隔离做的不好的问题:单个业务方访问异常时会导致加载在同一个星座中的其他业务都会受影响。我们做了以下几点,问题也就迎刃而解:

  • 每份数据会根据所属业务方分配资源池标签,在计算分布部署时会考虑数据所带标签:相同业务线的数据迁移只会发生在自身的资源池内,这样既保证了数据端的资源隔离,也可以支持业务线拆分的自动迁移
  • 在Proxy端,我们按照业务访问进行了流量入口划分,给业务方分配单独的访问入口

基于上述两点,从入口到数据层面都较好的实现了业务隔离。

这里需要特别提一下的是,今年我们初步探索出一套单请求消耗CPU的模型,在这个模型上线之前,我们都是假设每个请求消耗的CPU是同等的,而实际上不同请求的CPU消耗相差特别大(这和请求的特征紧密相关,比如请求查询的表类型、索引中查出来的结果数目、单条结果的大小、最终返回的结果数据等等),导致星座之间CPU利用率差异较大。上了新的模型之后,这个问题得到了很大的缓解,详情参见后面大促数据。

3. 如何自动化分析全链路压测iGraph指标?

如上两个问题解决之后我们需要检查上面两项工作的成果是否符合预期。我们是通过大促全链路压测的方式来验证我们的流量预估是否准确以及表的部署是否合理(不能出现数据部分星座访问过高或者过低的情况)。这需要把我们的预估和实际压测数据拿出来进行diff分析,包括表的QPS维度、星座QPS维度、星座CPU维度、场景QPS维度等。通过这个全面分析,我们一方面能够check我们的流量预估和部署是否合理,另外一方面能够找出压测过程周某些场景流量压多了或者压少了,以及流量成分发生变化的情况,然后反馈到调用方在下一轮压测中解决。

系统架构

既然问题已经定义清楚了,我们提出了如下图所示的系统架构来极大提升我们今年双十一大促准备工作的效率。整个项目由iGraph工程团队和iDST算法同学合作完成

下图是我们整体的系统架构。
ams (16).svg

下面介绍下各个组件的功能:

1.流量特征分析和预估

  • 结合调用方自身QPS和iGraph中该调用方的各维度QPS信息,流量成分分析对每一个调用方分析出如下结果:

    • 调用方一次请求处理需要访问多少次iGraph Proxy
    • 调用方一次请求处理需要访问多少张iGraph表,以及访问每张表的次数
  • 针对大促场景,由于平时没有流量,流量分析服务会在场景压测期间进行特征分析
  • 针对部分日常场景在大促期间流量特征发生变化的情况,流量特征分析服务会分别记录日常流量特征和大促流量特征。在进行大促流量预估时,选择大促流量特征进行预估。
  • 根据上游调用方流量峰值预估和iGraph中流量成分分析的结果就可以计算出每一种来源对iGraph Proxy峰值访问QPS和Search峰值访问QPS。
  • 预估出所有场景的Proxy峰值访问QPS和Search峰值访问QPS之后进行叠加聚合,就可以得到iGraph服务Proxy层峰值访问QPSSearch峰值访问QPS以及每一张表的访问QPS

2.指标收集与计算

指标收集

表级别相关指标(内存、磁盘、QPS、Latency)容器相关指标(磁盘、内存、CPU消耗)都是通过KMonitor获取,感谢Kmonitor同学为我们提供稳定metric系统支持,KMonitor是基于optsdb on druid架构的监控系统,支持api接口获取监控数据。 kmonitor作为统一的监控平台来支撑业务监控和智能运维的相关需求。 关于kmonitor的详细介绍可以参考Kmonitor监控平台。
容器相关的配置通过iGraph管控系统Autoumars获取

指标计算

表级别相关的计算指标我们重点收集了单表消耗内存、单表消耗磁盘、单表消CPU等指标,由于像内存、磁盘等指标是可以明确统计的,这里就不做过多赘述。对于单表单次访问的CPU消耗我们初步建立了一个计算的模型:单个容器的CPU消耗取决于容器内所有表的访问QPS、访问rt、以及容器本身的一些特性。

$$ zoneCpuUsed_i = F(TableQps,TableRT,C_i) $$

$$ C_i表示自容器自身的特性影响 $$

$$ zoneCpuUsed = \sum(TableQPS_n*TableRT_n)*zoneCpuWeight $$

$$ TableCpuCostPerQuery = TableRT_n*zoneCpuWeight $$

$$ zoneCpuUsed = \sum(TableQPS_n*TableCpuCostPerQuery_n) $$

根据上述的一些模型来计算单表单次访问的CPU消耗,结合预估的qps来计算单表CPU消耗。

策略控制

由于iGraph业务的特殊性,部分数据表是不能进行迁移

  • 单列容器内表无法进行迁移
  • 原始odps分区缺失数据无法进行迁移
  • 部分容器只能迁出,无法迁入
  • 预热期和正常大促期间数据会发生替换,这种需要做表映射保证表下线后负载仍较为均衡。
  • ......
    这些数据会打上一定的无法迁移的标签,在计算最佳分布逻辑时会考虑这些标签,进行策略控制

3.IDST算法产出调度计划

算法同学会根据之前产出的集群状态快照作为优化引擎的输入,优化引擎的输出则是最终需要执行的迁移序列。

4.调度执行

算法产出最终迁移序列之后,Autoumars将会自动扫描产出结果,解析完成后按照固定的批次顺序执行迁移任务:
解析完成的迁移plan:
aca54a6d-e167-49e1-8656-0ec1961de5eb.png | center

具体的迁移任务:
29f44f95-9669-480b-92bd-94bf3b9c213e.png | center

大促效果

下面总结一下在今年大促期间的取得成果:

  1. 流量预估从原先的需要算法同学紧密配合,变成了算法同学无感知,并且一天之内就能出一个版本的流量预估报告。
  2. 成功进行多轮的负载平滑迁移,共计进行了数万次数据表迁移,将集群中各个容器的CPU平均负载提高20%左右,磁盘使用率和内存使用率稳定在较高水位,未出现各个资源使用不均匀的情况。
  3. 大促效果
  • 调整前各个星座负载状态,单个柱状图表示了单项资源(内存、磁盘、cpu等)使用额度,标红部分就是当前资源使用已经超出最大限制,迁移之后所有星座的负载都均衡了。
    undefined
  • 实际迁移plan执行完毕后CPU消耗的变化,可以明显看出各个容器CPU消耗逐渐均衡
    CPU消耗对比.png
  • 大促当天各个星座cpu负载基本均衡
    大促当天负载.png

未来改进

今年是iGraph数据部署调整第一次和算法配合一起进行大促的动态调整,仍有很多的不足之处需要后续持续改进:

  • 1.单表CPU计算的模型过于简单,需要考虑searcher服务端多层cache对预估结果的影响,这种情况在压测集比较小的场景下影响较大。另外表增量更新部分的开销也需要考虑进来
  • 2.在各轮压测完毕后对比分析压测情况和预估情况差异,目前这块还只有简单的工具完成,还未集成到整套管控中去,产品化做的不够好,需要不断完善。
  • 3.由于iGraph自身容器迁移成本较高,目前还不能支持实时调度,这块也是后续的优化目标。另外如何用最小的迁移成本来达到平铺的效果需要和算法同学一起研究下。
相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
65 4
|
1月前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
|
10天前
|
机器学习/深度学习 传感器 算法
智能机器人在工业自动化中的应用与前景###
本文探讨了智能机器人在工业自动化领域的最新应用,包括其在制造业中的集成、操作灵活性和成本效益等方面的优势。通过分析当前技术趋势和案例研究,预测了智能机器人未来的发展方向及其对工业生产模式的潜在影响。 ###
42 9
|
7天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
16天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
42 4
|
29天前
|
人工智能 搜索推荐 大数据
智能食品生产:自动化与定制化的食品制造
【10月更文挑战第26天】本文探讨了智能食品生产中的自动化与定制化趋势。自动化技术在原料处理、加工制造、包装和质检等环节的应用,显著提高了生产效率和产品质量。智能化技术则通过物联网、大数据、云计算和人工智能等手段,实现了更高效、精准和灵活的生产,并能满足消费者的个性化需求。虽然面临高成本、技术维护和数据安全等挑战,但政府和企业共同努力,将推动食品行业的健康和可持续发展。
|
1月前
|
机器学习/深度学习 人工智能 机器人
智能废物管理系统:城市垃圾的自动化处理
【10月更文挑战第24天】智能废物管理系统利用物联网、大数据、人工智能和自动化机器人等技术,实现城市垃圾从分类、收集到处理的全过程自动化,提高处理效率,优化资源配置,提升居民参与度,降低运营成本,推动城市可持续发展。
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
69 3
|
1月前
|
机器学习/深度学习 运维 监控
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维工作的重要性日益凸显。随着企业业务的不断扩展和技术的日新月异,传统的运维方式已难以满足现代企业的需求。因此,构建一个高效、智能的运维体系成为了企业发展的关键。本文将探讨如何从自动化逐步演进到智能化,以实现运维工作的高效化和智能化。
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
AI技术趋势:从自动化到智能化的演变
AI技术趋势:从自动化到智能化的演变