优化Feed流遭遇拦路虎 是谁帮百度打破了“内存墙”?

简介: 优化Feed流遭遇拦路虎 是谁帮百度打破了“内存墙”?

Feed流的概念对很多人来说都很陌生,但在移动互联网时代几乎每个人的工作生活都离不开它。通俗讲,它就是一种普遍应用于各类社交和内容资讯类app,主攻信息、内容的聚合和推送的互联网服务方式。它能将你最感兴趣并且长期关注的内容推送给你,成为最懂你的信息助手。同时,基于智能化的自动聚合、精准推送信息的功能,它也成为了今天商户投放广告和实现更佳营销效果的重要渠道。

依托于出色的个性化应用体验,Feed流服务的用户数量和使用频度都在与日俱增,用户对其内容推送的精准度、时效性等需求也在随之不断提升,这就对支撑Feed流服务的平台性能、尤其是数据库性能构成了严峻的挑战,即便是相关领域的老牌玩家、身为全球 IT 和互联网行业的领先企业的百度,也需要对其进行持续的优化和革新。


1“成长的烦恼百度Feed流服务撞上“内存墙”


此前,大家在提及IT平台性能时,如果没有特指,基本都是对应其主要算力单元的性能表现,但为什么在Feed流服务中,数据库性能也会如此关键?

这一点,其实是由Feed流服务的本质及架构决定的,正如上文所说,它的主要功用就是要对各种信息和内容进行自动聚合和精准推送,而所有这些信息和内容都会以海量数据的型态在Feed流服务背后的数据库中进行存储,还需要进行尽可能高效地访问和处理,惟其如此才能实现迅捷和精准的推送结果。

图一、百度Feed-Cube示意图

因此不论是哪家企业的Feed流服务,它们基本都是围绕背后的核心数据库构建起来的。百度也是如此,它早在数年前就构建了Feed流服务所需的数据库Feed-Cube。而且从自身的业务状况出发,为满足数以亿计的用户规模、千万量级的并发服务,以及更低时延的数据处理性能,百度还在Feed-Cube构建之初就把它打造成了一个内存数据库,并采用了KVKey- Value,键值对)的存储结构。在这个结构中,Key值,以及Value值所在数据文件的存储偏移值都存放在哈希表中,而Value值则单独存放在不同的数据文件中。此外,所有哈希表和数据文件均存放在内存中,从而能充分借助内存的高速I/O能力来提供出色的读写性能和超低时延。

尽管拥有如此前瞻的架构设计,Feed- Cube还是会遇到挑战——虽然在每秒千万次查询的高并发和PB级海量数据存储环境下它的表现一直优异,但在百度Feed流服务规模持续扩展、数据规模也持续增长的情况下,它还是遇到了内存容量扩展跟不上数据存储需求发展的问题,或者说,撞上了“内存墙”的考验。

内存墙这个词,原本是用以描述内存与算力单元之间的技术发展差距所导致的性能瓶颈,而在大数据和AI时代数据处理需求更多走向实时化后,它也增添了容量层面的含义,即用户为了尽可能提升数据读写和处理的效率,不得不将更大体量的数据从存储中移到距算力更近、带宽和I/O性能更优的内存中,但内存容量扩展不易和成本过高的问题,却使得它难以承载更大体量的数据,这种情形,就像是内存在容量上也有了一层看不见摸不着,但又实实在在存在的围墙。

如果要问为何内存容量扩展难,成本也高?那就要谈到DRAM身上。作为目前内存普遍使用的介质,DRAM在单条服务器内存上的主流容量配置多是32GB或64GB,128GB少见且价格昂贵,任何人如果想使用DRAM内存来大幅扩展内存容量,那么就必须承担非常高昂的成本,而且花了大钱,最终可能还是难以实现自己想要达到的内存容量水准。

百度就曾经考虑过以堆DRAM的方式为Feed-Cube构建更大的内存池,但这一方面会使其TCO大幅抬升,另一方面,这种方式也依然跟不上Feed-Cube数据承载能力的发展要求。

在验证依靠DRAM难以突破内存墙后,百度还尝试使用性能不断提升的、基于非易失性存储(non-volatile memory,NVM)技术的存储设备,如 NVMe 固态盘来存储 Feed-Cube 中的数据文件和哈希表。但经测试发现,这一方案在QoS、IO 速度等方面都难以满足服务需求。


2 傲腾持久内存成破“墙”利器  兼顾性能、容量和成本收益


求助DRAMNVMe固态盘都不顺利,那么Feed-Cube突破内存墙的路径和方案到底在哪里呢?百度抱着寻求突破性方案的初衷,把眼光瞄向合作多年的伙伴英特尔,瞄向它意在颠覆传统内存-存储架构的傲腾持久内存。

图二、傲腾™持久内存在内存-存储层级中的位置及作用

傲腾持久内存进入百度视野的原因其实很简单,即它比较好的兼顾了现有DRAM内存和存储产品的优势,同时又不像它们那样有各自明显的不足之处——它凭借创新的介质,可提供接近DRAM的读写性能和访问时延、更接近固态盘的存储容量,并支持DRAM内存所不具备的数据持久性和更高价格容量比,以及NAND固态盘所无法比肩的耐用性。这使得它在多用户、高并发和大容量的场景下有着非常突出的优势,也特别适合用于扩展内存来承载更大体量、需要更高读写速度和时延来处理的数据。

有鉴于此,百度开始尝试使用傲腾持久内存来破解Feed-Cube面对的内存墙问题。其做法就是用持久内存来存储Feed-Cube中的数据文件部分,并仍用DRAM来存放哈希表。采用这一混合配置的目的,一方面是为了验证傲腾持久内存在 Feed-Cube 中的性能表现;另一方面,Feed- Cube 在查询 Value 值的过程中,读哈希表的次数要远大于读数据文件,因此先在数据文件部分进行替换,可以尽可能地减少对 Feed-Cube 性能的影响。

与此同步,百度还与英特尔合作,根据 Feed-Cube 应用场景的需求,在服务器 BIOS 中加入了对傲腾持久内存的支持驱动,还在百度自研Linux内核的基础上增添了相关的补丁,以求实现硬件、操作系统、内核等组件的全方位优化,进而充分释放整个系统的性能潜力。

经过这一系列操作后,百度就模拟了实际场景中可能出现的大并发访问压力,对纯 DRAM 内存模式与上述混合配置模式进行了对比测试。测试中,每秒查询次数(Query Per Second,QPS)设为 20 万次,每次访问需要查询 100 组 Key-Value 组,总访问压力为 2 千万级。结果显示,在此如此大的访问压力下,平均访问耗时仅上升约 24%(30 微秒),处理器消耗整机占比仅上升7%,性能波动也在百度可接受的范围内。而与此相对应的是,单服务器的 DRAM 内存使用量下降过半,这对于 Feed-Cube PB 级的存储容量而言,无疑可大大降低成本。

在这一成果的激励下,百度又进一步尝试将 Feed-Cube的哈希表及数据文件都存入傲腾™ 持久内存中,以每秒 50 万次查询(QPS)的访问压力进行测试,结果证明这一模式与只配置DRAM 内存的方案相比,平均时延仅上升约 9.66%,性能波动也在百度可接受的范围内。

图三、百度Feed-Cube内存硬件变化路径

经过这些探索和实践,百度最终验证了其 Feed 流服务的核心模块 Feed-Cube 从仅配置 DRAM 内存的模式,迁移至同时使用 DRAM 内存与英特尔® 傲腾持久内存的混合配置模式,再到全面依托英特尔® 傲腾持久内存模式的可行性。这一系列创新举措在大并发访问压力下的优异的性能表现以及符合百度预期的资源消耗,充分展示了傲腾持久内存在打破内存墙过程中发挥的关键作用。

3 打破内存墙 给行业数智转型带来的启示


毫无疑问,随着各行各业云化、数字化和智能化转型的加速,越来越多的大数据和AI应用的落地,大家不论是整体,还是个体都面临数据规模、数据维度和复杂性的大幅增长,加之用户对服务时效性等需求不断提升,所有相关的系统和应用不但对算力提出了更多样化和更为严苛的挑战,也要求内存-存储架构在性能和容量层面都能跟上算力和数据的演进趋势。如果我们再考虑到企业对低成本、高效率的无限追求,这一切就使得传统的通常增添DRAM来拓展内存容量的方式已几近成为历史,所有面临内存墙挑战的人,都需要像百度一样,必须要寻求变革性的技术、颠覆性的方案方能尽拂破墙而出,开启高效服务新篇章。

相关文章
|
8月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
908 3
|
8月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
868 159
|
11月前
|
缓存 固态存储 Windows
如何让内存发挥到最大效能?全面优化指南,提升电脑运行体验
电脑内存使用不合理会导致卡顿,本文教你如何优化内存性能。检查内存容量与主板支持上限,考虑升级或调整配置;关闭后台程序、管理浏览器标签、结束异常进程以释放内存;设置虚拟内存、调整视觉效果、定期重启提升效率;必要时增加内存条、选择高频内存、更换固态硬盘。避免盲目清理内存和依赖大内存忽视其他硬件瓶颈。只需合理设置,无需额外花钱,就能显著提升电脑速度。
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
2412 0
|
11月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
828 4
AI代理内存消耗过大?9种优化策略对比分析
|
缓存 监控 Cloud Native
Java Solon v3.2.0 高并发与低内存实战指南之解决方案优化
本文深入解析了Java Solon v3.2.0框架的实战应用,聚焦高并发与低内存消耗场景。通过响应式编程、云原生支持、内存优化等特性,结合API网关、数据库操作及分布式缓存实例,展示其在秒杀系统中的性能优势。文章还提供了Docker部署、监控方案及实际效果数据,助力开发者构建高效稳定的应用系统。代码示例详尽,适合希望提升系统性能的Java开发者参考。
626 4
Java Solon v3.2.0 高并发与低内存实战指南之解决方案优化
|
11月前
|
存储 人工智能 API
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
在AI代理系统开发中,上下文工程成为提升系统性能的关键技术。本文探讨了从提示工程到上下文工程的转变,强调其通过为AI系统提供背景信息和工具支持,显著提升智能化程度和实用价值。文章系统分析了上下文工程的理论基础、核心策略(如写入、选择、压缩和隔离),并结合LangChain和LangGraph工具,展示了如何实现上下文工程技术以优化AI代理性能。通过Scratchpad机制、内存管理、RAG系统集成、多代理架构及沙盒环境等技术手段,开发者可以更高效地构建高性能、可扩展的AI系统。
1519 0
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
|
存储 自然语言处理 算法
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案
本文探讨了在构建对话系统时如何通过一种内存高效算法降低大语言模型(LLM)的Token消耗和运营成本。传统方法中,随着对话深度增加,Token消耗呈指数级增长,导致成本上升。
1333 7
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案
|
10月前
|
边缘计算 算法 Java
Java 绿色计算与性能优化:从内存管理到能耗降低的全方位优化策略与实践技巧
本文探讨了Java绿色计算与性能优化的技术方案和应用实例。文章从JVM调优(包括垃圾回收器选择、内存管理和并发优化)、代码优化(数据结构选择、对象创建和I/O操作优化)等方面提出优化策略,并结合电商平台、社交平台和智能工厂的实际案例,展示了通过Java新特性提升性能、降低能耗的显著效果。最终指出,综合运用这些优化方法不仅能提高系统性能,还能实现绿色计算目标,为企业节省成本并符合环保要求。
327 0
|
缓存 编解码 Android开发
Android内存优化之图片优化
本文主要探讨Android开发中的图片优化问题,包括图片优化的重要性、OOM错误的成因及解决方法、Android支持的图片格式及其特点。同时介绍了图片储存优化的三种方式:尺寸优化、质量压缩和内存重用,并详细讲解了相关的实现方法与属性。此外,还分析了图片加载优化策略,如异步加载、缓存机制、懒加载等,并结合多级缓存流程提升性能。最后对比了几大主流图片加载框架(Universal ImageLoader、Picasso、Glide、Fresco)的特点与适用场景,重点推荐Fresco在处理大图、动图时的优异表现。这些内容为开发者提供了全面的图片优化解决方案。
501 1