游客fmnrqz7kdmyom_个人页

游客fmnrqz7kdmyom
个人头像照片
0
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年12月

  • 12.12 09:34:53
    发表了文章 2025-12-12 09:34:53

    4.1 服务端(DevBox)-项目创建

    通过Sealos创建SpringBoot工程zxyf-management,配置Java环境与容器资源,结合Cursor智能开发工具实现云端编码、一键启动与部署,快速构建可访问的云原生应用。
  • 12.12 09:34:18
    发表了文章 2025-12-12 09:34:18

    20 | 推荐引擎:没有搜索词,「头条」怎么找到你感兴趣的文章?

    每天下拉刷新,资讯App就能推荐你感兴趣的头条,这背后依赖的是推荐引擎的检索技术。与搜索不同,推荐系统通过用户行为构建画像,结合内容标签与协同过滤算法,实现个性化召回。基于内容的推荐匹配兴趣,协同过滤则挖掘用户或物品相似性,再经多层排序筛选出最优结果。混合策略让推荐更精准高效。
  • 12.12 09:33:51
    发表了文章 2025-12-12 09:33:51

    19 | 广告系统:广告引擎如何做到在 0.1s 内返回广告信息?

    广告系统是互联网核心营收支柱,支撑Google、Facebook等巨头超80%收入。本文详解其高性能引擎架构:通过标签过滤、树形分片、向量检索与非精准打分等技术,在0.1秒内完成百万级广告实时召回与排序,实现千人千面精准投放。
  • 12.12 09:33:21
    发表了文章 2025-12-12 09:33:21

    18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?

    搜索引擎通过爬虫抓取网页,经索引系统处理生成倒排索引,并在检索系统中结合分词、纠错、推荐等技术,利用位置信息和最小窗口排序,精准返回用户所需结果,实现高效搜索。
  • 12.12 09:33:00
    发表了文章 2025-12-12 09:33:00

    17 | 存储系统:从检索技术角度剖析 LevelDB 的架构设计思想

    LevelDB是Google开源的高性能键值存储系统,基于LSM树优化,采用跳表、读写分离、SSTable分层与Compaction等技术,结合BloomFilter、索引分离及LRU缓存,显著提升读写效率,广泛应用于工业级系统。
  • 12.12 09:32:35
    发表了文章 2025-12-12 09:32:35

    特别加餐 | 高性能检索系统中的设计漫谈

    本文系统梳理了高性能检索系统中的四大核心设计思想:索引与数据分离、减少磁盘IO、读写分离和分层处理。通过案例解析与对比分析,深入探讨其本质与适用场景,并总结通用实践经验,帮助开发者在实际系统设计中提升性能与可维护性,构建高效稳定的高并发系统。
  • 12.12 09:32:07
    发表了文章 2025-12-12 09:32:07

    16 | 最近邻检索(下):如何用乘积量化实现「拍照识花」功能?

    随着AI发展,以图搜图、拍图识物等应用日益普及,其核心是高效图片检索技术。本文深入解析如何通过聚类算法(如K-Means)与乘积量化结合倒排索引,实现高维图像特征向量的快速近似最近邻搜索,在降低存储开销的同时提升检索效率,广泛应用于图像搜索、推荐系统等领域。
  • 12.12 09:31:43
    发表了文章 2025-12-12 09:31:43

    15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?

    在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档转为高维向量,利用SimHash等局部敏感哈希技术生成紧凑指纹,结合海明距离与抽屉原理分段索引,可高效近似检索相似内容,避免重复展示,提升用户体验。该方法广泛应用于网页去重、图像识别等领域。
  • 12.12 09:30:52
    发表了文章 2025-12-12 09:30:52

    14 | 空间检索(下):「查找最近的加油站」和「查找附近的人」有何不同?

    本文探讨了动态范围内“查找最近的k个目标”问题,如导航找加油站。针对查询范围不固定场景,提出利用四叉树、非满四叉树和前缀树优化检索效率与存储空间。通过树形结构实现快速范围扩展,避免重复查询,提升性能。
  • 12.12 09:30:25
    发表了文章 2025-12-12 09:30:25

    13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?

    本文介绍了如何高效实现“查找附近的人”功能,提出基于Geohash的区域编码与索引方案。通过将二维坐标转为一维编码,结合非精准与精准检索策略,利用跳表、二叉树等数据结构提升查询效率,适用于大规模地理位置服务场景。
  • 12.12 09:29:53
    发表了文章 2025-12-12 09:29:53

    12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器?

    本文介绍了非精准Top K检索的优化思路与实现方法,通过简化打分机制提升检索效率。重点讲解了三种加速技术:基于静态质量得分排序截断、胜者表利用词频打分、以及分层索引的两层检索策略。这些方法将计算前置至离线阶段,在线仅做快速截断,大幅降低开销。结合精准排序的两阶段架构,广泛应用于搜索与推荐系统,实现高效召回与精度平衡。
  • 12.12 09:29:27
    发表了文章 2025-12-12 09:29:27

    11|精准 Top K 检索:搜索结果是怎么进行打分排序的?

    搜索引擎排序核心在于打分与Top K检索。本文详解三种打分算法:经典TF-IDF衡量词频与区分度;BM25在此基础上引入文档长度、词频饱和等优化,支持参数调节;机器学习则融合上百因子自动学习权重,提升排序精度。最后通过堆排序高效实现Top K结果返回,兼顾性能与效果。适合搜索、推荐等场景。
  • 12.12 09:28:49
    发表了文章 2025-12-12 09:28:49

    10 | 索引拆分:大规模检索系统如何使用分布式技术加速检索?

    在大规模检索系统中,分布式技术通过拆分倒排索引提升性能。基于文档的水平拆分将数据随机分片,各服务器并行处理,降低单次查询耗时,且易于扩展与维护;而基于关键词的垂直拆分虽减少请求复制,但易引发负载不均与运维复杂。工业界普遍采用文档拆分,兼顾效率与可维护性。
  • 12.12 09:28:17
    发表了文章 2025-12-12 09:28:17

    09 | 索引更新:刚发布的文章就能被搜到,这是怎么做到的?

    本文讲解工业界如何高效更新倒排索引。针对小规模索引,采用Double Buffer机制实现无锁更新;对于大规模索引,则使用全量索引结合增量索引方案,并通过完全重建、再合并或滚动合并等方式处理增量数据,兼顾性能与资源开销。
  • 12.12 09:27:47
    发表了文章 2025-12-12 09:27:47

    08 | 索引构建:搜索引擎如何为万亿级别网站生成索引?

    针对超大规模数据,如搜索引擎需处理万亿级网页,倒排索引远超内存容量。为此,工业界采用分治与多路归并思想:先将文档集拆分为小块,在内存中为每块构建倒排索引并写入磁盘临时文件;随后通过多路归并合并临时文件,生成全局有序的最终倒排文件。该过程类似MapReduce框架,支持分布式加速。检索时,优先将词典加载至内存,用哈希表或B+树快速定位关键词,再从磁盘读取对应posting list。对过长的posting list,则采用分层索引(如跳表)或缓存机制(如LRU),仅加载必要数据块,减少IO开销,提升效率。
  • 12.12 09:27:16
    发表了文章 2025-12-12 09:27:16

    07 | NoSQL 检索:为什么日志系统主要用 LSM 树而非 B+ 树?

    B+树适用于读多写少场景,但在日志、监控等高频写入的大数据场景中性能受限。LSM树通过将数据分内存C0树和磁盘C1树,利用批量写入、WAL日志恢复与滚动合并机制,以顺序写替代随机写,大幅提升写入性能,更适配写密集型应用,成为多数NoSQL数据库的核心存储结构。
  • 12.12 09:26:11
    发表了文章 2025-12-12 09:26:11

    06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?

    本节探讨磁盘环境下大规模数据检索的挑战与解决方案,重点解析B+树如何通过索引与数据分离、多阶平衡结构及双向链表优化,实现高效的磁盘I/O利用和范围查询,广泛应用于数据库等工业级系统。
  • 12.12 09:25:37
    发表了文章 2025-12-12 09:25:37

    特别加餐丨倒排检索加速(二):如何对联合查询进行加速?

    本文深入探讨工业界倒排索引中联合查询的四大加速方法:调整次序法通过优化计算顺序提升效率;快速多路归并法利用跳表加速多集合交集运算;预先组合法对高频查询提前计算结果;缓存法则通过LRU机制缓存热点查询,减少重复计算。四种方法从数学、算法与工程角度协同优化复杂检索,显著提升系统性能。
  • 12.12 09:25:07
    发表了文章 2025-12-12 09:25:07

    特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?

    本文深入解析倒排索引中求交集的三大加速技术:跳表、哈希表与位图,并介绍工业级优化方案Roaring Bitmap。通过组合基础数据结构,实现高效检索,揭示复杂系统背后的简洁原理。
  • 12.12 09:24:20
    发表了文章 2025-12-12 09:24:20

    测一测丨检索算法基础,你掌握了多少?

    本文介绍了多种数据结构的查询、插入及冲突处理机制。对比了无序与有序数据结构的查询效率,分析了二叉检索树、跳表、哈希表、位图、布隆过滤器和倒排索引的特性与适用场景,涵盖时间空间复杂度、平衡性、遍历性能及实际应用设计原则。(238字)
  • 12.12 09:23:53
    发表了文章 2025-12-12 09:23:53

    05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?

    本文通过唐诗检索的类比,深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键,适合精确查找;而倒排索引以关键词为键,指向包含该词的文档列表,极大提升了多关键词联合查询的效率。文章详细介绍了倒排索引的构建步骤:文档编号、关键词解析、哈希表插入及链表归并查询,并解释了如何通过有序链表的归并实现高效交集运算。此外,还探讨了多字段索引(如作者)、敏感词检测、内存优化等实际应用问题,揭示了倒排索引在搜索引擎、推荐系统等大规模检索场景中的核心地位。
  • 12.12 09:23:24
    发表了文章 2025-12-12 09:23:24

    04 | 状态检索:如何快速判断一个用户是否存在?

    本文探讨如何高效判断对象是否存在,对比有序数组、二叉树、哈希表的查询性能,引出位图与布隆过滤器。位图利用数组按位存储,空间效率高;布隆过滤器通过多哈希函数映射到位数组,实现O(1)查询,虽存在误判但省空间,适用于注册去重、爬虫判重等场景。删除问题可通过引用计数或重建解决。
  • 12.12 09:22:56
    发表了文章 2025-12-12 09:22:56

    03 | 哈希检索:如何根据用户 ID 快速查询用户信息?

    本文介绍了哈希表的原理与实现。通过哈希函数将键转化为数组下标,利用数组随机访问特性实现O(1)查询。针对哈希冲突,讲解了开放寻址法(线性探查、二次探查、双散列)和链表法两种解决方案,并分析其优劣。最后指出哈希表的缺点:空间开销大、不支持有序操作。实际应用中常结合链表或红黑树优化性能。
  • 12.12 09:22:24
    发表了文章 2025-12-12 09:22:24

    02 | 非线性结构检索:数据频繁变化的情况下,如何高效检索?

    本文通过文件查找引出树状结构的优势,探讨如何利用非线性结构提升数据检索效率。重点分析二叉检索树与跳表如何实现二分查找,解决链表无法随机访问的问题,并比较二者在平衡性、插入效率及实际应用中的优劣,揭示高效检索的核心原理。
  • 12.12 09:21:53
    发表了文章 2025-12-12 09:21:53

    01 | 线性结构检索:从数组和链表的原理初窥检索本质

    本文探讨数组与链表的检索原理及效率。数组支持随机访问,适合二分查找,检索效率为O(log n);链表需顺序遍历,效率为O(n),但插入删除更高效。通过合理组织数据结构,如结合数组与链表优点,可优化检索性能,核心在于快速缩小查询范围。
  • 发表了文章 2025-12-12

    17 | 存储系统:从检索技术角度剖析 LevelDB 的架构设计思想

  • 发表了文章 2025-12-12

    20 | 推荐引擎:没有搜索词,「头条」怎么找到你感兴趣的文章?

  • 发表了文章 2025-12-12

    特别加餐 | 高性能检索系统中的设计漫谈

  • 发表了文章 2025-12-12

    特别加餐丨倒排检索加速(二):如何对联合查询进行加速?

  • 发表了文章 2025-12-12

    06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?

  • 发表了文章 2025-12-12

    测一测丨检索算法基础,你掌握了多少?

  • 发表了文章 2025-12-12

    13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?

  • 发表了文章 2025-12-12

    11|精准 Top K 检索:搜索结果是怎么进行打分排序的?

  • 发表了文章 2025-12-12

    07 | NoSQL 检索:为什么日志系统主要用 LSM 树而非 B+ 树?

  • 发表了文章 2025-12-12

    08 | 索引构建:搜索引擎如何为万亿级别网站生成索引?

  • 发表了文章 2025-12-12

    12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器?

  • 发表了文章 2025-12-12

    18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?

  • 发表了文章 2025-12-12

    特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?

  • 发表了文章 2025-12-12

    09 | 索引更新:刚发布的文章就能被搜到,这是怎么做到的?

  • 发表了文章 2025-12-12

    10 | 索引拆分:大规模检索系统如何使用分布式技术加速检索?

  • 发表了文章 2025-12-12

    14 | 空间检索(下):「查找最近的加油站」和「查找附近的人」有何不同?

  • 发表了文章 2025-12-12

    4.1 服务端(DevBox)-项目创建

  • 发表了文章 2025-12-12

    19 | 广告系统:广告引擎如何做到在 0.1s 内返回广告信息?

  • 发表了文章 2025-12-12

    15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?

  • 发表了文章 2025-12-12

    16 | 最近邻检索(下):如何用乘积量化实现「拍照识花」功能?

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息