自然语言处理的搜索结果_第14页-阿里云开发者社区

t55cenhjuilvw

|

7天前

|

博文

本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比，说明键值查询与关键词搜索的区别。正排索引以文档ID为键，适合精确查找；而倒排索引以关键字为键，记录包含该词的文档列表，显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法，并拓展至多路归并与实际应用场景，如搜索引擎、推荐系统等。倒排索引虽原理简单，却是现代信息检索的核心技术之一。

# 存储 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 索引

t55cenhjuilvw

|

7天前

|

博文

分词器详解

分词器将文本转为模型可处理的数字序列，主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱，WordPiece适合英文，SentencePiece语言无关，尤适中文。实战中需根据语言特性选择，并关注词汇表大小、OOV问题等面试重点。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客wsxnwr5p22s5w

|

7天前

|

博文

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，彻底革新了自然语言处理。其核心为编码器-解码器架构，通过自注意力机制并行捕捉长距离依赖，结合位置编码、残差连接与层归一化，显著提升建模效率与性能，成为BERT、GPT等大模型的基础。

# 机器学习/深度学习 # 自然语言处理 # 网络架构

游客kwr7ple66hwxa

|

7天前

|

博文

🔤 分词器详解

分词器将文本转为模型可处理的数字序列，主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱，WordPiece适合英文，SentencePiece语言无关，尤适中文。实战中需根据语言和任务选择算法与参数。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客kwr7ple66hwxa

|

7天前

|

博文

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，采用编码器-解码器结构，通过自注意力并行处理序列，捕获长距离依赖。核心创新包括多头注意力、位置编码、残差连接与层归一化，显著提升训练效率与性能，广泛应用于NLP任务，取代传统RNN模型。（238字）

# 机器学习/深度学习 # 自然语言处理 # 网络架构

游客bjnjbvjj3nb64

|

7天前

|

博文

索引更新：刚发布的文章就能被搜到，这是怎么做到的？

本文介绍工业界倒排索引的高效更新机制。针对小规模内存索引，采用Double Buffer实现无锁读写；对于大规模数据，则使用“全量+增量”索引结合方案，配合删除列表处理删改操作，并通过滚动合并法减少冗余IO，提升系统性能与可扩展性。（238字）

# 存储 # 自然语言处理 # 搜索推荐 # Java # 索引

游客bjnjbvjj3nb64

|

7天前

|

博文

索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据，可通过分治与多路归并生成内存外倒排索引。先将文档分批在内存建索引，再写入有序临时文件，最后合并为全局索引。检索时结合内存哈希表、B+树及分层加载技术，高效处理词典与 posting list 的磁盘访问，提升查询性能。

# 存储 # 自然语言处理 # 分布式计算 # 搜索推荐 # 索引

游客kwr7ple66hwxa

|

7天前

|

博文

🏗️ 主流大模型结构

本文系统梳理主流大模型架构：Encoder-Decoder、Decoder-Only、Encoder-Only与Prefix-Decoder，解析GPT、LLaMA、BERT等代表模型演进与特点，对比参数量、上下文长度等关键指标，深入探讨中文模型优化及面试高频问题，助力全面掌握大模型技术脉络。（238字）

# 自然语言处理

游客bjnjbvjj3nb64

|

7天前

|

博文

搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

搜索引擎通过爬虫抓取网页，经索引系统处理生成倒排索引，再由检索系统结合分词、纠错、推荐等技术理解用户意图，利用位置信息和最小窗口排序提升短语检索相关性，实现高效精准搜索。

# 机器学习/深度学习 # 数据采集 # 自然语言处理 # 搜索推荐 # 索引

游客bjnjbvjj3nb64

|

7天前

|

博文

索引拆分：大规模检索系统如何使用分布式技术加速检索？

本文介绍了分布式技术在大规模检索系统中的应用，重点探讨了索引拆分的三种方式：业务拆分、基于文档的水平拆分和基于关键词的垂直拆分。其中，基于文档的拆分通过将数据均匀分布到多台服务器，实现并行检索与负载均衡，既能提升吞吐量，又能缩短单次查询时间，且更易于扩展和维护，是工业界主流方案。

# 自然语言处理 # 运维 # 负载均衡 # 搜索推荐 # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

自然语言处理