自然语言处理

首页 标签 自然语言处理
# 自然语言处理 #
关注
28912内容
主流大模型结构
本文详解主流大模型架构:Encoder-Decoder(如T5)、Decoder-Only(如GPT)、Encoder-Only(如BERT)和Prefix-Decoder(如GLM),涵盖代表模型、特点与应用场景;梳理GPT系列演进、LLaMA发展及中文大模型现状,并提供模型对比与面试重点解析。
🎲 解码策略
解码策略决定文本生成方式,平衡创造性与准确性。贪婪解码确定性强但重复性高;Beam Search提升质量但成本较高;随机采样(如Top-k、Top-p)增强多样性,适合创意任务。不同方法适用于翻译、摘要、创作等场景。
|
5天前
|
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比,说明键值查询与关键词搜索的区别。正排索引以文档ID为键,适合精确查找;而倒排索引以关键字为键,记录包含该词的文档列表,显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法,并拓展至多路归并与实际应用场景,如搜索引擎、推荐系统等。倒排索引虽原理简单,却是现代信息检索的核心技术之一。
|
5天前
|
分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱,WordPiece适合英文,SentencePiece语言无关,尤适中文。实战中需根据语言特性选择,并关注词汇表大小、OOV问题等面试重点。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,彻底革新了自然语言处理。其核心为编码器-解码器架构,通过自注意力机制并行捕捉长距离依赖,结合位置编码、残差连接与层归一化,显著提升建模效率与性能,成为BERT、GPT等大模型的基础。
🔤 分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱,WordPiece适合英文,SentencePiece语言无关,尤适中文。实战中需根据语言和任务选择算法与参数。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,采用编码器-解码器结构,通过自注意力并行处理序列,捕获长距离依赖。核心创新包括多头注意力、位置编码、残差连接与层归一化,显著提升训练效率与性能,广泛应用于NLP任务,取代传统RNN模型。(238字)
索引更新:刚发布的文章就能被搜到,这是怎么做到的?
本文介绍工业界倒排索引的高效更新机制。针对小规模内存索引,采用Double Buffer实现无锁读写;对于大规模数据,则使用“全量+增量”索引结合方案,配合删除列表处理删改操作,并通过滚动合并法减少冗余IO,提升系统性能与可扩展性。(238字)
索引构建:搜索引擎如何为万亿级别网站生成索引?
针对超大规模数据,可通过分治与多路归并生成内存外倒排索引。先将文档分批在内存建索引,再写入有序临时文件,最后合并为全局索引。检索时结合内存哈希表、B+树及分层加载技术,高效处理词典与 posting list 的磁盘访问,提升查询性能。
🏗️ 主流大模型结构
本文系统梳理主流大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only与Prefix-Decoder,解析GPT、LLaMA、BERT等代表模型演进与特点,对比参数量、上下文长度等关键指标,深入探讨中文模型优化及面试高频问题,助力全面掌握大模型技术脉络。(238字)
免费试用