追求极致的AI·OS——AI·OS引擎平台

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介:

AI·OS技术栈

AI·OS

2018年9月底,搜索事业部举办了一场十年技术峰会。在这场峰会上,我们正式将搜索的在线服务由iSearch5升级到AI·OS大数据深度学习在线服务体系。这次名称的变化,体现的是搜索技术十年量变到质变的积累,体现的是搜索人十年的坚持。

搜索近十年的发展可以分为四个主要的阶段。一是2008至2009年,iSearch 4.0版本,是搜索技术独立起航的第一个版本,它脱胎于iSearch 3.0,强调的是分布式、大规模、高可用,有很好的扩展能力,当时在B2B和淘宝同时上线,使搜索技术赶上了业务的发展。二是2009年至2011年,引擎出现了Kingso和HA3两个分支,Kingso以高性能闻名于世,HA3则是完全重构的版本,具有良好架构。这个阶段主题是系统化和高性能,我们开始将引擎视为一个完整、闭环的系统,而不是一系列进程和脚本的拼接。三是2011年至2013的搜索技术峰会,我们将集团搜索引擎统一,提出了iSearch 5.0引擎平台。这个阶段的关键是平台化,我们认为应当打造一个引擎平台支持全集团的搜索业务,而不是为每个搜索业务定制引擎,只有这样才能走得更快。当年在平台化与效率的问题上,搜索内部有一波不小的争论,事实上,这种争论在集团很多平台上仍在重演。只要有平台与业务之分,就会产生这种争论,平台如何抽象才能支持好业务的迭代、保证业务不被阻塞,业务又如何积累产生平台性的创新、保证平台的统一性,究竟应该统一版本还是分支发展。我个人是平台化坚定的支持者,但平台化不意味着不允许分支,平台化也不意味着不允许业务快速迭代创新,平台化更不意味着只能有一个团队开发平台功能。恰恰相反,平台团队仅仅是代码主线的维护者,是武林盟主而不是皇帝。一切以技术正确、而不是政治正确来衡量,只要坚持这一点,万流归宗,所有的分支自然会回归主线,这是中台应有的自信,充分开放才能成就中台。

2013年到现在的五年,是搜索发展的第四个阶段,搜索技术面对了很多新的挑战,其中最大两个,一是推荐的崛起,二是深度学习的广泛应用。这也是AI·OS产生的原因,我们面对的不再是搜索一个单一引擎,而是多样化的推荐引擎和深度学习引擎,这就需要更高层的服务框架抽象和更高效的执行引擎。

接下来,我来介绍一下引擎平台在最近一年的发展和创新。

Suez Turing在线服务框架

推荐业务与深度学习的发展都对在线服务框架提出了很大的挑战。

从推荐业务来看,与搜索类似,也是query处理、召回、排序、后处理几个阶段,但每个阶段都有自己的特点。比如推荐的召回广泛使用多路召回混排的模式,细节每个场景还会略有不同。如此之多的种类和组合,很难用一个固定的引擎支持,而简单把这些逻辑丢给算法同学,又会回到TPP上一坨复杂低效java代码的老路。我们需要一个高性能、易定制、高抽象的在线服务框架。

从深度学习的应用来看,模型已经无孔不入,不仅仅是排序时才需要运行深度模型。在query处理、召回甚至是取摘要时都可能有模型。从性能优化的角度考虑,我们还有可能在离线Build阶段运行模型。所以,深度模型的计算,不是一个割裂的、另类的需求。是必须内置到执行引擎,与正常的召回、过滤、排序、统计对等的功能。

基于这些考虑,今年我们升级了Suez服务框架,提出了Suez Turing全图化在线服务框架。今年,Suez Turing引擎在架构上实现了HA3、BE、RTP的整合,并在双11成功应用到了主搜、店铺内、猜你喜欢BE、海神、菜鸟等业务线。主搜上实现了HA3和RTP合图并支持了粗排深度模型;猜你喜欢BE上实现了算子并行使得latency降低一半;codegen技术使菜鸟包裹引擎统计性能提升一倍。经历双11,Suez Turing框架的稳定性和性能均得到了验证。

RTP深度学习预测服务

今年双11,各种业务场景上深度学习应用仍然处于井喷状态。搜索与推荐各种业务场景纷纷上线大模型,特别是AOP一站式算法平台推出后,大幅降低了算法同学实验和上线模型的难度。RTP上的模型复杂度大幅增加。

在CPU计算上,我们主要的两个优化手段是online2offline和fg codegen技术,将CPU端性能提升一倍以上。在异构计算加速上,今年我们大规模应用了GPU和FPGA异构计算技术,使用FPGA的数量超过了GPU。特别是我们与AIS合作FPGA加速方案,是FPGA在阿里集团内首个深度学习大规模生产应用的场景。在去年双11灰度验证的基础上,今年FPGA成为支撑搜索双11的主力,在中小batch场景下,FPGA带来的提升明显。FPGA全链路软硬件都可掌控、可优化,未来潜力巨大。

另一方面,RTP平台上业务大幅增长,而且业务都是用户自助创建的。如何自动为用户选择最合适的集群,如何保证这么多的业务安全稳定的升级和更新。我们在集群治理方面也做了不少工作,大大减轻了RTP平台的维护代价。

搜索混部

今年双11,搜索混部仍然保持持续工作,在包括11日凌晨最高峰的时段都保持不降级。混部上10日晚间至11日凌晨计算的算法模型,在11日当天上线,为提升用户体验发挥了巨大的作用。在双11的30小时内,搜索事业部国内所有机房的平均负载做到了40%,峰值做到50%。最大的一个混部机房做到平均负载57%,峰值70%。

今年我们与计算平台事业部合作,推出了AliYarn,将搜索在线多年积累的在线调度和隔离能力输出到Yarn中。通过这个版本,我们在去年混部深度学习训练任务的基础上,做到了与Flink实时计算任务的混部。双11后,AliYarn将会在搜索在线上线,成为Sigma上同时支持离线任务、流式任务、在线服务的调度器。

在线服务计算存储分离

不论是搜索还是推荐,还是深度学习,都离不开数据,计算和存储是在线服务要解决的两个永恒的问题。搜索调度系统统一后,可以发现上层业务非常多样,有极端重计算轻索引的应用,也有极少流量索引巨大的应用。不论是那种在线服务,对latency的要求都是一样的。对大数据量的应用,普遍存在着搬移慢,故障恢复慢的问题。而为了支持这些大数据量的应用,即使他们只运行在少数机器上,为了成本,我们的机型也要做普遍的适配,实际上是加大了整体成本。再加上索引切换之类的额外预留,实际有效存储使用不到一半。

今年阿里集团普遍推广使用计算存储分离技术,搜索也不例外,但搜索的场景非常特殊。一是,搜索分离的数据量并不大,因为我们是在线服务,最大也不过是PB级,这与大数据离线计算相比,数据量不值一提。二是,搜索的服务质量要求极高,我们要求4个9稳定的读latency,而且是在一个并不小的写背景下,这与追求吞吐的离线计算和作为普通log存储的场景完全不同。三是,搜索对服务的可用性要求极高,要做到在线服务级别的可用性。

今年双11我们在两个业务场景实验了在线服务计算存储分离。一是一个推荐场景,存储分离节省了45T内存,结合Suez Turing全图化框架,大幅缩列提升性能,以73%的服务器支撑了262%的流量。另一个是摘要服务场景,这在搜索与推荐链路都是至关重要的服务,存储分离集群稳定承担了20%的流量。集群延迟和性能表现稳定。双11后,我们将在搜索全面推广计算存储分离技术。

展望

接下来,AI·OS引擎平台会继续推进在线服务框架的迭代演进,推进Suez Turing上层引擎的统一,做更大范围的合图。最终我们希望能让用户很方便地定制后台引擎,同时保持高性能和高可用。

集群调度和管理方面,我们会推广计算存储分离技术,将大量大索引有状态的服务无状态化,加速调度决策执行速度和故障恢复的速度。同时,我们还会进一步统一搜索的在离线调度,做更大范围的统一调度。

在异构计算加速方面,我们要积极尝试新的密度更高的异构硬件型号,在FPGA软硬件协同和GPU的新型号引入方面也要投入更大的精力。

目录
相关文章
|
21天前
|
人工智能 监控 安全
数据、AI涌现的年代,迭代数字平台,更需关注安全合规问题
在当下,无论是企业想谋求数字化转型升级,还是想要出海走出去,首先基本上都会对自己的数字体验系统进行重塑,而这其中关于的安全合规问题,也成为了决定企业选择何种技术进行系统迭代更新的关键。
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
2024年AI辅助研发:科技创新的引擎
2024年AI辅助研发:科技创新的引擎
110 1
|
21天前
|
消息中间件 测试技术 Linux
linux实时操作系统xenomai x86平台基准测试(benchmark)
本文是关于Xenomai实时操作系统的基准测试,旨在评估其在低端x86平台上的性能。测试模仿了VxWorks的方法,关注CPU结构、指令集等因素对系统服务耗时的影响。测试项目包括信号量、互斥量、消息队列、任务切换等,通过比较操作前后的时戳来测量耗时,并排除中断和上下文切换的干扰。测试结果显示了各项操作的最小、平均和最大耗时,为程序优化提供参考。注意,所有数据基于特定硬件环境,测试用例使用Alchemy API编写。
77 0
linux实时操作系统xenomai x86平台基准测试(benchmark)
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 场景】如何使用 AI 来改善电子商务平台中的客户体验?
【5月更文挑战第4天】【AI 场景】如何使用 AI 来改善电子商务平台中的客户体验?
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
构建未来:AI驱动的自适应教育平台
【4月更文挑战第30天】 随着人工智能技术的迅猛发展,其在教育领域的应用正逐步从理论探索走向实践落地。本文将详细阐述一个基于AI技术的自适应学习平台的设计理念、核心功能以及潜在影响。该平台利用机器学习算法分析学生的学习行为和成绩,动态调整教学内容和策略,以实现个性化教学。研究结果表明,AI辅助的自适应学习能够显著提高学习效率,同时为教师提供强有力的教学辅助工具。
|
21天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
21天前
|
安全 Devops 虚拟化
【专栏】虚拟化技术与云计算平台 OpenStack:硬件虚拟化、操作系统级虚拟化和容器化
【4月更文挑战第28天】本文探讨虚拟化技术原理,如硬件虚拟化、操作系统级虚拟化和容器化,以及开源云计算平台OpenStack如何利用这些技术提供优势。OpenStack支持多种虚拟化技术,具备开源灵活性、多租户架构、可扩展性、插件式设计和成本效益。未来,OpenStack将在容器化、DevOps、跨云策略和安全合规性方面发挥更大作用,助力企业数字化转型。
|
21天前
|
存储 人工智能 测试技术
【AI智能体】SuperAGI-开源AI Agent 管理平台
【4月更文挑战第9天】智能体管理平台SuperAGI简介及实践
202 0
|
21天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
50 0
|
21天前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
103 0