阿里巴巴搜索在离线统一调度

简介: 1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

1. 发展历程

        Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

2. YARN on Hippo on Sigma

        在2017年天猫双11,搜索在离线混合调度方案是YARN on Hippo on Sigma,在NC上通过Sigma(集团一层调度系统)拉起Hippo Slave容器交由Hippo Master管理,Topia向Hippo Master申请用于部署NM的资源(资源基本保证和弹性上限由Hippo决定)并拉起NM交由YARN RM统一管理,具有较强的通用性(衍生出多种X on Y的形态)和现实性,我们做到了2个月和集团资源池合并,平滑支持多种调度系统生态融合,对上层各类业务无感知,平稳经过了大促检验。但是,该方案有一定的局限性,不同调度系统有不同的资源和业务视图,优先级,管控等,资源QoS和业务SLA难以很好的定义和满足。因此,在搜索在离线调度系统需要深度融合的诉求下,我们走向了在离线统一调度。

3. AliYARN

       2018年搜索工程技术调度系统团队和计算平台实时计算引擎团队合作,在社区YARN3.1的基础上开发了AliYARN3.1版本,以期解决搜索在离线调度系统深度融合的诉求,主要涉及以下几个方面:
         * 在线服务与Blink流/批任务混合调度和部署
         * 搜索在线和离线资源合池
         * 统一资源QoS、业务SLA标准、管控平台等
         * 优化超卖、挤占、智能弹性调度和重调度等策略
         * 提供Blink在线隔离能力
         * 加强YARN在线服务调度能力

        在开发过程中我们遵循的基本原则是 支持生态多样性和 走向社区, AliYARN3.1版本主要新特性包括:
         * 全局调度框架,异步多线程并发基于实时负载批量调度分配Guarantee和超卖Opportunistic container
        * 摆放策略,应用内和应用间,allocationTag/nodeAttribute上的多种表达式
        * 多维资源,支持ip/disk/gpu/fpga等资源调度分配
        * 资源分配计划持久化,保证在线服务类应用更高的资源稳定性和可靠性
        * 资源更新接口增强
        * 热点负载迁移和均衡
        * 资源和业务解耦
        * 基于优先级的抢占
        * 优雅下线机器和container
        * 单机资源QoS调度
        * 实时更新RM调度配置和单机NM调度配置
        * 更强的CPU/Memory/Blkio/DiskQuota/Network/resctrl等资源隔离特性
        * 重调度的能力
        * 请求干预,如G/O干预,资源干预,摆放策略干预等
        * 请求分配过程跟踪和诊断
        * Restful API增强等

        通过Hippo Master桥接Hippo协议和YANR RM协议,对上层业务透明,将Hippo Slave使用为YARN NM上的一种executor,让YARN具备了更强大的多进程类VM和POD编排和托管的能力,从而实现了Hippo in YARN的方案,灰度上线中,拉开了在离线资源合池和统一调度的序幕。

4. 总结和思考

        任何一种新的方案的落地都不可能一蹴而就,也并不代表新的方案就是今后唯一存在的调度形态,整个调度生态必然会随着面临的问题和场景的变化而发生变化。一个调度系统想要有强大的生命力,既要自身有能力直接管理和分配裸资源,也需要有能力生长在别的调度系统之上,跨不同地域、不同机房、不同部署域,将资源合理的分配给上层业务。永不止步,Hippo Federation和Hippo on K8S在路上,让我们和各合作伙伴一起砥砺前行。

附录:

目录
相关文章
|
SQL 运维 搜索推荐
《揭秘,阿里开源自研搜索引擎Havenask的在线检索服务》
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务,它具备高可用、高时效、低成本的优势,帮助企业和开发者量身定做适合业务发展的智能搜索服务。
85218 138
|
SQL 搜索推荐 测试技术
【Havenask实践篇】完整的性能测试
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。性能测试的目的在于评估搜索引擎在各种负载和条件下的响应速度、稳定性。通过模拟不同的用户行为和查询模式,我们可以揭示潜在的瓶颈、优化索引策略、调整系统配置,并确保Havenask在用户数量激增或数据量剧增时仍能保持稳定运行。本文举例对Havenask进行召回性能测试的一个简单场景,在搭建好Havenask服务并写入数据后,使用wrk对Havenask进行压测,查看QPS和查询耗时等性能指标。
66421 6
|
存储 消息中间件 搜索推荐
【前沿技术】 阿里开源搜索引擎Havenask的消息系统
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的消息系统--Swift,它是一个设计用于处理大规模的数据流和实时消息传递的高性能、可靠的消息系统。
61420 3
|
人工智能 搜索推荐 异构计算
|
存储 消息中间件 安全
计算与存储分离实践—swift消息系统
swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。
7116 0
|
搜索推荐 大数据 数据库
【Havenask实践篇】搭建文本检索服务
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文举例数据库检索加速的一个简单场景,使用Havenask对数据库的文本字段建立倒排索引,通过倒排检索列提高检索性能,缩短检索耗时。
114758 51
【Havenask实践篇】搭建文本检索服务
|
自然语言处理 搜索推荐 算法
【一文读懂】基于Havenask向量检索+大模型,构建可靠的智能问答服务
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内的几乎整个阿里的搜索业务。本文针对性介绍了Havenask作为一款高性能的召回搜索引擎,应用在向量检索和LLM智能问答场景的解决方案和核心优势。通过Havenask向量检索+大模型可以构建可靠的垂直领域的智能问答方案,同时快速在业务场景中进行实践及应用。
112081 64
|
运维 监控 搜索推荐
【电商搜索】现代工业级电商搜索技术-Ha3搜索引擎平台简介
【电商搜索】现代工业级电商搜索技术-Ha3搜索引擎平台简介
|
自然语言处理 数据处理 调度
《Havenask分布式索引构建服务--Build Service》
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service,主打稳定、快速、易管理,是在线系统提升竞争力的一大利器。
102780 3
《Havenask分布式索引构建服务--Build Service》