索引库、文档操作
本文介绍了Elasticsearch(ES)的核心概念及其与MySQL的对比,涵盖索引(Index)、文档(Document)、字段(Field)和映射(Mapping)等基本结构。通过Kibana使用DSL语句演示了索引库与文档的增删改查操作,并讲解了IK分词器、RestClient API 的使用方法,帮助读者掌握ES在数据存储与搜索分析中的实际应用。
答疑 | 基础篇与进阶篇思考题答案合集
本文围绕RPC核心机制展开,涵盖请求响应关联(消息ID)、动态代理替代方案(Service存根)、流式传输优势(InputStream减少拷贝)、流量切换(权重、分组)、异常重试时机(负载均衡前)、服务重启策略、熔断限流降级等实践问题,并探讨开发测试环境隔离方案,助力构建高效稳定的分布式系统。(239字)
安装ES、Kibana、IK
本文介绍如何通过Docker部署单节点Elasticsearch与Kibana,并配置IK分词器。内容涵盖网络创建、镜像加载、容器运行、插件安装及分词器扩展词典与停用词设置,同时提供常见启动报错的解决方案,助力快速搭建中文搜索环境。
倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文介绍了正排索引与倒排索引的核心原理及应用。通过唐诗检索的场景对比,说明了键值查询与关键词检索的不同需求。正排索引以文档ID为键,适合精确查找内容;而倒排索引以关键字为键,指向包含该词的文档列表,极大提升了多关键词联合查询的效率,广泛应用于搜索引擎、数据库全文检索等领域。
RocketMQ总结
本课程系统讲解人工智能基础理论与应用实践,涵盖机器学习、深度学习、自然语言处理等核心内容,结合案例分析与项目实操,帮助学习者掌握AI关键技术,提升解决实际问题的能力,适用于初学者及进阶开发者。
索引更新:刚发布的文章就能被搜到,这是怎么做到的?
本文介绍工业级倒排索引的高效更新机制。针对小规模内存索引,采用Double Buffer实现无锁读写;对于大规模索引,则使用“全量+增量”索引方案,结合删除列表处理删改操作,并通过完全重建、再合并或滚动合并策略管理增量数据增长,提升系统性能与稳定性。
🔤 分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点:BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持多语言。选择时需权衡粒度、速度与模型需求,中文推荐SentencePiece。
Chap01. 认识AI
本文介绍了AI核心概念及大模型开发原理,涵盖人工智能发展历程与Transformer神经网络的关键作用。通过注意力机制,Transformer实现对文本、图像、音频的高效处理,成为GPT等大模型的基础。大语言模型(LLM)利用其持续生成能力,逐字推理输出内容,实现连贯对话与多模态生成。