在 OpenAI 打造流处理平台:超大规模实时计算的实践与思考
本文介绍OpenAI构建流处理平台的实践与挑战。面对Kafka高可用、Python生态兼容、云环境限制等问题,团队基于PyFlink打造跨区域流处理架构,集成Kafka HA组、自研代理与控制平面,支撑实时Embedding生成、特征计算等场景,并推动开源协作与平台自动化演进。
非精准 Top K 检索如何实现?
非精准Top K检索通过离线计算静态质量得分(如PageRank)并预先排序,实现在线快速截断。倒排索引的posting list按质量分降序排列,多关键词查询时通过归并排序高效获取Top K结果,大幅降低在线计算开销,适用于对相关性要求不高的场景。
OOM排查之路:一次曲折的线上故障复盘
本文记录了一次线上服务因Paimon数据湖与RocksDB集成引发的三次内存溢出(OOM)故障排查全过程。通过MAT、NMT、async-profiler等工具,结合监控分析与专家协作,最终定位到RocksDB通过JNI申请堆外内存未释放的根源问题,并推动架构优化:由应用直写改为Flink统一入湖。分享排查思路与工具使用,为同类技术栈提供借鉴。
OOM排查之路:一次曲折的线上故障复盘
本文分享了一次线上服务因Paimon与RocksDB集成引发的三次内存溢出(OOM)故障排查全过程。从线程暴增到堆外内存泄漏,团队历经曲折,结合MAT、NMT、async-profiler等工具,最终定位至SDK中RocksDB通过JNI申请内存未释放的问题,并通过架构优化彻底解决。文章系统梳理了排查思路与工具使用,为类似技术栈提供宝贵经验。