阿里推荐与搜索引擎 - AI·OS综述

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
推荐全链路深度定制开发平台,高级版 1个月
简介: AI·OS(Online Serving),大数据深度学习在线服务体系,由我们工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。

7747f1892043e5dc1790d378b36fb21c4f145f48


AI·OS(Online Serving),大数据深度学习在线服务体系,由我们工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。

AI·OS聚焦于深度学习的在线服务,其组件Jarvis甚至已经运行于手机上,但从功能角度来看,在体系中处于关键地位的有5个服务组件:TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎。AI·OS上的主要的算法场景,比如手淘的搜索、猜你喜欢、AIO以及海神等,都以图化(算子流程图定制)的模式对组件快速组合与部署并承担实验流量,让在线服务不拖模型训练的后腿随训随上,这是我们对迭代效率的最高水平的新演绎。

AI·OS这些关键服务组件能够幻化异彩纷呈的算法场景和技术产品,绝非机械组合可成。引擎图化的基础,尤其是对组件快速组合与部署并接流的能力,得益于我们对大数据在线服务的通用抽象(要求具备秒级数据更新的最终一致性),它就是Suez在线服务框架。Suez框架统一了3个维度的工作:1. 索引存储(全文检索、图检索、深度学习模型),2. 索引管理(全量、增量以及实时更新),3. 服务管理(最终一致性、切流降级扩缩容等)。每一个服务组件比如iGraph,孤立的做好这几个维度至少要3年时间,哪怕是共享大部分代码,而做好它们只是一个在线服务的基本前提,毕竟我们都知道频繁的业务迭代一定是发生在图的计算层面。近日回顾,将iGraph迁移到Suez框架上,出于对使命的认同团队精锐尽出不计投入,使得AI·OS可以合围而成。

AI·OS体系里Hippo承担着集群物理资源的调度任务,这里是中台容器和隔离技术与搜索工程交汇之地,更是模型训练PAI-TF与实时计算Blink通过AOP成为体系友员的桥头堡。今天推荐与搜索的训练任务都运行在Hippo混部资源池上,算法鼎盛时期我见证过最大2千台、七天均值1300台百核机器满负荷运转,这些资源是免费获得的,而这些作业创造的价值大到无法估量。

AI·OS自身也是预测与优化算法的用武之地,其中AIOps更是集大成者,在metrics服务KMon解决了秒级实时可靠性之后,在TPP成功推升ajdk的负载极限之后,在广大无状态服务组件弹性扩缩成功之后,AIOps终于可以再迈进一步推动Hippo池内大部分引擎服务组件执行弹性策略,双11当日力争摸高50%的负载峰值。弹性扩缩据我们所知在大数据在线服务领域是开拓性的工作。

AI·OS得以自成体系完成算法迭代闭环,离不开嵌于手淘皇冠上的搜荐服务端和客户端两颗明珠,这里是算法工程产品融合亦是相关各方博弈的主场,高效的产品迭代和完善的实验机制配合支持体系不断实现众望所归的开疆辟土。近年来端上智能的探索逐步明晰,助力拍立淘突破数千万UV,技术上反哺手淘也给AI·OS体系带来新的发展空间。

AI·OS深入骨髓的产品化理念支撑我们自居中台技术中坚,TPP、TisPlus以及OpenSearch这些精准定位的推荐与搜索中台产品成就众多事业部的大数据场景和基础检索服务。国际化大潮中,AI·OS体系化部署无需定制开发,技术中台优势独显。索引更新链路的设计欠缺造成负面影响,鞭策我们的同时侧面也佐证AI·OS的基础地位。

云上拓展不仅是机遇更是AI·OS产品化的使命和终极归宿,一批早期的引擎开发者富有远见志同道合殊途同归勇于开拓,如今OpenSearch和ES(基于AI·OS体系的基础设施)已经全球部署成长为两款千万级的搜索产品,而名为AIRec的智能推荐产品即将问世,明年我们的公有云大数据产品矩阵有望营收有新突破。

总结一下,AI·OS体系的基石是Hippo它为体系划定了资源的刚性边界,资源为在线服务发展所必须,凡支持混部在资源角度能形成双赢的即为体系友员(比如PAI-TF),目前我们也在不断拓展Hippo边界即将与Yarn合体甚至合池;往上的Suez是体系里大数据在线服务的基础框架,支持Suez即为体系成员,除运维成本大幅降低外还很自然的参与AIOps弹性扩缩进一步提升系统效率;进而再具备图化能力即成为深度学习在线服务体系的核心成员,可以在业务场景里任意驰骋,未来我们寄望于全图化引擎与离线高效对接大幅提升算法迭代效率。Hippo到Suez(iGraph)再到图化引擎(RTP、HA3、DII),再延伸到手淘搜荐服务端与客户端,乃至其上的AIOps和几大技术产品TPP、TisPlus、OpenSearch,其核心线索是优化算法迭代效率,这乃是AI·OS体系的精髓所在。从今天AI·OS达到的境界而言,我在所知范围内还没有见到同行到达过。

 

AI·OS与算法

直白的讲,面对大数据业务挑战, AI·OS至多能起到30%的作用,随后是算法解决30+%,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,这容易被忽视,在早期淘宝搜索,不久前的手淘推荐在上演。很难想象有另外的技术领域会像这两个领域一样乐于相互成就,对彼此同事的职级、规模和疆域的成长感受到的只有羡慕。我们需要永远铭记,AI·OS发展的核心线索是优化算法迭代效率。

 

AI·OS与Blink

Blink孵化自早期的AI·OS体内,今天已蓬勃发展为通用实时计算引擎,不过二者间关系永远的凝结于实时二字之上:AI·OS体系的引擎服务都要求具备秒级数据更新的最终一致性,而Blink在AI·OS的场景之外再难寻觅真正的技术挑战。这就很容易解释为什么Blink团队珍视AOP,而AI·OS狂热的推动Blink上混部,甚至落地Hippo与Yarn合体合池。AI·OS与Blink的互补特性,仅次于AI·OS与算法。

 

AI·OS与PAI

稍早时PAI希望独立发挥作用却总不能得门而入,原因是忽视了AI·OS体系尤其是Hippo的混部资源池的刚性诉求,尽管大家都认同PAI在Blink和AI·OS之间有很大的发挥空间。所幸三方的开放心胸最终达成分工默契,放弃自己的资源池后,PAI-TF成功地撑起了搜索和推荐算法全部的模型训练任务,而且也支持了AI·OS的图化执行引擎。展望未来PAI-TF可以在AI·OS发展的核心线索上发挥更大作用。

对比Blink和PAI,梳理一下AI·OS的发展脉络,不难发现规律:AI·OS首先服务于集团头部客户发展基础体系,然后具备产品化能力服务于集团内中长尾,最后再完善产品化成为云上服务。Blink诞生于AI·OS优化实时计算效率服务好了头部客户,然后发展SQL走产品化的路服务好中长尾集团内得以统一,现在也在云上大力发展。而PAI之前只能服务集团内中长尾,反观几家头部客户均有自己的训练平台,这绝非任性,主因是当时PAI并不足以支撑头部客户迭代需求。而今天PAI-TF做出改变兼容AI·OS体系,格局会本质改观,彻底落地的PAI将会同时具备头部和中长尾的服务能力,集团内统一深度学习的训练平台将会水到渠成。

 

AI·OS与图计算

图计算在计算引擎学界引领热潮,在离线场景(包含迭代计算)有丰富的论作,向在线服务领域拓展寻求更快速的验证在所必然,但在互联网大数据技术业界鲜有堪称经典的对标实现,是因为业界技术能力不够吗?学界热潮容易理解,图论本是经典倾倒无数英雄,而业界缺乏对标更刺激学界投入。只不过业界见到的多数大数据业务场景完整抽象后并非经典的图计算问题,比如AI·OS对此的抽象是算子流程图快速定制,这至多算是一个泛化的图计算模型。不过在AI·OS体系之上的局部,经典的图计算技术的确大有空间,iGraph乃至整个体系准备好随时被颠覆,不过颠覆之前,需要摸透具备秒级数据更新的最终一致性的在线服务的特点,从Hippo到Suez的能力要素都要逐步具备。是融入体系在iGraph或Suez上快速落地,还是像PAI一样兼容于体系,还是独立于AI·OS体系之外从头开始,选择决定成败。OLAP与图计算相似,走向在线也将面临类似的选择。对于这类具备面向最终一致性的在线服务,独立于AI·OS建设,还意味着要开辟独立资源池,因而也更加需要提供足够独特的价值,这方面我还没有看的很清楚。最后一个和AI·OS关系密切的技术方向是OLTP,因之在数据更新的一致性上要求更高,AI·OS不会妄自涉足。

需要指出的是,集团内外流行的Graph Embedding从在线服务角度来看,和图计算无关,这个技术叫向量召回,是图像检索的泛化应用,该技术集团内实现以达摩院机器智能实验室最为突出(拍立淘核心技术之一),这部分已是AI·OS体系能力的一部分。



相关文章
|
1月前
|
人工智能 搜索推荐 Ubuntu
[AI Perplexica] 安装指南:轻松部署AI驱动的开源搜索引擎
详细讲解如何在本地环境中使用Docker部署AI驱动的开源搜索引擎Perplexica,让您快速上手体验其强大功能。
[AI Perplexica] 安装指南:轻松部署AI驱动的开源搜索引擎
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
探索操作系统的未来:量子计算与AI的融合
【7月更文挑战第4天】在数字化时代,操作系统作为连接用户与硬件的桥梁,其发展直接影响着计算机科学的进步。随着量子计算和人工智能技术的兴起,传统操作系统面临着前所未有的挑战和机遇。本文将探讨量子计算与AI技术如何推动操作系统的进化,以及这一进程对软件架构、安全性和性能优化等方面的影响。通过分析当前技术趋势和未来展望,文章旨在为读者提供一个关于操作系统未来发展的全面视角。
|
25天前
|
机器学习/深度学习 人工智能 安全
探索操作系统的未来:量子计算与AI的融合
【7月更文挑战第26天】随着科技的不断进步,传统操作系统正面临着前所未有的挑战和机遇。本文将深入探讨操作系统在量子计算和人工智能融合趋势下的发展前景,分析这一变革如何重塑我们对数据处理、系统安全和用户体验的认知。文章旨在为读者提供一个关于未来操作系统可能走向的全面视角,同时引发对现有技术革新的思考。
|
10天前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
52 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
|
1月前
|
弹性计算 人工智能 运维
阿里ECS&OS Copilot智能助手初体验
探索阿里云新推出的OS Copilot,与通义千问对比,体验其在Linux运维中的应用。创建ECS实例、重置密码、设置RAM Access Key过程略显复杂。OS Copilot安装简便,能准确解答问题,提供Shell脚本,对运维工作帮助大,评分9分。作为运维新手,认为文档对新人不友好,期待正式版并愿推荐给同行。功能上,突出知识问答和命令执行辅助,优于其他产品,期望优化连续问答和文档处理能力,与ECS整合以增强系统错误排查。
阿里ECS&OS Copilot智能助手初体验
|
25天前
|
人工智能 云计算
巴赫:阿里AI技术将巴黎奥运转播带到新高度
巴赫:阿里AI技术将巴黎奥运转播带到新高度
150 7
|
5天前
|
人工智能 安全 搜索推荐
探索操作系统的未来:量子计算与AI的交汇点
在这篇文章中,我们将穿梭于现代科技的前沿,探讨操作系统如何适应并融合新兴技术,特别是量子计算和人工智能。通过简明的语言和清晰的结构,本文将引导读者了解这些技术如何重塑我们对数据处理、资源管理和用户交互的认识。
|
7天前
|
机器学习/深度学习 人工智能 编解码
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
23 0
|
1月前
|
人工智能 运维 自然语言处理
|
1月前
|
人工智能 运维 自然语言处理
当Linux遇上AI:探索操作系统中的智能新纪元
阿里云的OS Copilot是专为Linux打造的智能助手,利用大模型提供自然语言交互、命令辅助及运维优化。它简化编程任务,生成脚本框架,提供代码审查建议,适合开发者和运维人员。
264 0
当Linux遇上AI:探索操作系统中的智能新纪元