20 | 推荐引擎:没有搜索词,「头条」怎么找到你感兴趣的文章?
每天下拉刷新,资讯App就能推荐你感兴趣的头条,这背后依赖的是推荐引擎的检索技术。与搜索不同,推荐系统通过用户行为构建画像,结合内容标签与协同过滤算法,实现个性化召回。基于内容的推荐匹配兴趣,协同过滤则挖掘用户或物品相似性,再经多层排序筛选出最优结果。混合策略让推荐更精准高效。
11|精准 Top K 检索:搜索结果是怎么进行打分排序的?
搜索引擎排序核心在于打分与Top K检索。本文详解三种打分算法:经典TF-IDF衡量词频与区分度;BM25在此基础上引入文档长度、词频饱和等优化,支持参数调节;机器学习则融合上百因子自动学习权重,提升排序精度。最后通过堆排序高效实现Top K结果返回,兼顾性能与效果。适合搜索、推荐等场景。
12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器?
本文介绍了非精准Top K检索的优化思路与实现方法,通过简化打分机制提升检索效率。重点讲解了三种加速技术:基于静态质量得分排序截断、胜者表利用词频打分、以及分层索引的两层检索策略。这些方法将计算前置至离线阶段,在线仅做快速截断,大幅降低开销。结合精准排序的两阶段架构,广泛应用于搜索与推荐系统,实现高效召回与精度平衡。
16 | 最近邻检索(下):如何用乘积量化实现「拍照识花」功能?
随着AI发展,以图搜图、拍图识物等应用日益普及,其核心是高效图片检索技术。本文深入解析如何通过聚类算法(如K-Means)与乘积量化结合倒排索引,实现高维图像特征向量的快速近似最近邻搜索,在降低存储开销的同时提升检索效率,广泛应用于图像搜索、推荐系统等领域。
认识AI
本文介绍了AI发展及大模型核心原理,重点解析Transformer神经网络如何通过注意力机制实现自然语言处理突破。以GPT等大模型为例,揭示其基于上下文持续生成文本的推理机制,帮助理解AI为何能生成连贯内容。
Chap01. 认识AI
本文介绍了AI核心概念与大模型开发原理,涵盖人工智能发展历程及Transformer神经网络的关键作用。详解其注意力机制如何提升信息处理智能,并解析大语言模型(LLM)如何通过持续生成实现连贯文本输出,帮助理解GPT等模型的工作机制。(238字)
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文通过唐诗检索的类比,深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键,适合精确查找;而倒排索引以关键词为键,指向包含该词的文档列表,极大提升了多关键词联合查询的效率。文章详细介绍了倒排索引的构建步骤:文档编号、关键词解析、哈希表插入及链表归并查询,并解释了如何通过有序链表的归并实现高效交集运算。此外,还探讨了多字段索引(如作者)、敏感词检测、内存优化等实际应用问题,揭示了倒排索引在搜索引擎、推荐系统等大规模检索场景中的核心地位。