自然语言处理的搜索结果_文章_第11页-阿里云开发者社区

游客wsxnwr5p22s5w

|

5天前

|

博文

本文详解主流大模型架构：Encoder-Decoder（如T5）、Decoder-Only（如GPT）、Encoder-Only（如BERT）和Prefix-Decoder（如GLM），涵盖代表模型、特点与应用场景；梳理GPT系列演进、LLaMA发展及中文大模型现状，并提供模型对比与面试重点解析。

# 自然语言处理

游客wsxnwr5p22s5w

|

5天前

|

博文

🎲 解码策略

解码策略决定文本生成方式，平衡创造性与准确性。贪婪解码确定性强但重复性高；Beam Search提升质量但成本较高；随机采样（如Top-k、Top-p）增强多样性，适合创意任务。不同方法适用于翻译、摘要、创作等场景。

# 自然语言处理 # C++

t55cenhjuilvw

|

5天前

|

博文

05 | 倒排索引：如何从海量数据中查询同时带有「极」和「客」的唐诗？

本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比，说明键值查询与关键词搜索的区别。正排索引以文档ID为键，适合精确查找；而倒排索引以关键字为键，记录包含该词的文档列表，显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法，并拓展至多路归并与实际应用场景，如搜索引擎、推荐系统等。倒排索引虽原理简单，却是现代信息检索的核心技术之一。

# 存储 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 索引

t55cenhjuilvw

|

5天前

|

博文

分词器详解

分词器将文本转为模型可处理的数字序列，主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱，WordPiece适合英文，SentencePiece语言无关，尤适中文。实战中需根据语言特性选择，并关注词汇表大小、OOV问题等面试重点。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客wsxnwr5p22s5w

|

5天前

|

博文

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，彻底革新了自然语言处理。其核心为编码器-解码器架构，通过自注意力机制并行捕捉长距离依赖，结合位置编码、残差连接与层归一化，显著提升建模效率与性能，成为BERT、GPT等大模型的基础。

# 机器学习/深度学习 # 自然语言处理 # 网络架构

游客kwr7ple66hwxa

|

5天前

|

博文

🔤 分词器详解

分词器将文本转为模型可处理的数字序列，主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱，WordPiece适合英文，SentencePiece语言无关，尤适中文。实战中需根据语言和任务选择算法与参数。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客kwr7ple66hwxa

|

5天前

|

博文

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，采用编码器-解码器结构，通过自注意力并行处理序列，捕获长距离依赖。核心创新包括多头注意力、位置编码、残差连接与层归一化，显著提升训练效率与性能，广泛应用于NLP任务，取代传统RNN模型。（238字）

# 机器学习/深度学习 # 自然语言处理 # 网络架构

游客bjnjbvjj3nb64

|

5天前

|

博文

索引更新：刚发布的文章就能被搜到，这是怎么做到的？

本文介绍工业界倒排索引的高效更新机制。针对小规模内存索引，采用Double Buffer实现无锁读写；对于大规模数据，则使用“全量+增量”索引结合方案，配合删除列表处理删改操作，并通过滚动合并法减少冗余IO，提升系统性能与可扩展性。（238字）

# 存储 # 自然语言处理 # 搜索推荐 # Java # 索引

游客bjnjbvjj3nb64

|

5天前

|

博文

索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据，可通过分治与多路归并生成内存外倒排索引。先将文档分批在内存建索引，再写入有序临时文件，最后合并为全局索引。检索时结合内存哈希表、B+树及分层加载技术，高效处理词典与 posting list 的磁盘访问，提升查询性能。

# 存储 # 自然语言处理 # 分布式计算 # 搜索推荐 # 索引

游客kwr7ple66hwxa

|

5天前

|

博文

🏗️ 主流大模型结构

本文系统梳理主流大模型架构：Encoder-Decoder、Decoder-Only、Encoder-Only与Prefix-Decoder，解析GPT、LLaMA、BERT等代表模型演进与特点，对比参数量、上下文长度等关键指标，深入探讨中文模型优化及面试高频问题，助力全面掌握大模型技术脉络。（238字）

# 自然语言处理

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

自然语言处理