开发者社区人工智能文章正文

Poly-encoder 架构

2022-06-16 442

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Poly-encoder 架构

Poly-encoders: architectures and pre-training strategies for fast and accurate 
                            multi-sentence scoring
 非官方github ： https://github.com/chijames/Poly-Encoder
                https://github.com/sfzhou5678/PolyEncoder

Poly-encoder 架构可以用于推荐和搜索领域，只要是涉及两个 sequence 的比较的情况，都可以应用 Poly-encoder。

在速度上优于 cross-encoder, 质量上优于 bi-encoder 。

可以和 StarSpace （一种 learn-to-rank 模型, 效果好于 FastText 和 SVM）, 以及最近邻库 FAISS 来使用。

视频讲解地址 https://www.zhihu.com/zvideo/1455299489448202240

https://blog.csdn.net/qq_43390809/article/details/113586877

https://blog.csdn.net/xixiaoyaoww/article/details/108525940

https://zhuanlan.zhihu.com/p/380867813

https://blog.csdn.net/choose_c/article/details/118270484

文章标签：

机器学习/深度学习

孙庚辛

JOYCE_Leo16

10月前

机器学习/深度学习 XML 自然语言处理

Transformer 架构—Encoder-Decoder

JOYCE_Leo16

402 2 2

我是小白同学

23天前

机器学习/深度学习数据库索引

Transformer 学习笔记 | Encoder

本文记录了学习Transformer模型过程中对Encoder部分的理解，包括多头自注意力机制（Multi-Head Self-Attention）和前馈网络（Feed-Forward Network）的工作原理。每个Encoder Layer包含残差连接（Residual Connection）和层归一化（Layer Normalization），以缓解梯度消失问题并稳定训练过程。文中详细解释了Q、K、V的含义及缩放点积注意力机制（Scaled Dot-Product Attention），并通过图解展示了各组件的工作流程。欢迎指正。

我是小白同学

84 2 2

布客飞龙

10月前

PyTorch 算法框架/工具 C++

Bert Pytorch 源码分析：二、注意力层

布客飞龙

128 0 0

CodeLeader

机器学习/深度学习人工智能 PyTorch

ResNet架构解析

残差块

CodeLeader

1224 0 0

我是小白同学

1月前

机器学习/深度学习自然语言处理并行计算

Transformer 学习笔记 | Seq2Seq，Encoder-Decoder，分词器tokenizer，attention，词嵌入

本文记录了学习Transformer过程中的笔记，介绍了Seq2Seq模型及其编码器-解码器结构。Seq2Seq模型通过将输入序列转化为上下文向量，再由解码器生成输出序列，适用于机器翻译、对话系统等任务。文章详细探讨了Seq2Seq的优势与局限，如信息压缩导致的细节丢失和短期记忆限制，并引入注意力机制来解决长序列处理问题。此外，还介绍了分词器（tokenizer）的工作原理及不同类型分词器的特点，以及词嵌入和Transformer架构的基础知识。文中包含大量图表和实例，帮助理解复杂的概念。参考资料来自多个权威来源，确保内容的准确性和全面性。

我是小白同学

242 9 9

我是小白同学

21天前

机器学习/深度学习自然语言处理算法

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程，重点介绍了填充（padding）和掩码（masking）机制。掩码确保解码器只依赖于之前的位置，避免信息泄露，保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率，并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

我是小白同学

60 2 2

长发和小虎牙

10月前

机器学习/深度学习编解码边缘计算

YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

本文介绍了如何在YOLOv5中用ShuffleNetV2替换卷积以减少计算量。ShuffleNetV2是一个轻量级网络，采用深度可分离卷积、通道重组和多尺度特征融合技术。文中提供了一个逐步教程，包括ShuffleNetV2模块的代码实现和在YOLOv5配置文件中的添加方法。此外，还分享了完整的代码链接和GFLOPs的比较，显示了GFLOPs的显著减少。该教程适合初学者实践，以提升深度学习目标检测技能。

长发和小虎牙

558 7 7

YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

YOLO创新改进大师

9月前

机器学习/深度学习计算机视觉网络架构

【YOLOv8改进-卷积Conv】DualConv( Dual Convolutional)：用于轻量级深度神经网络的双卷积核

**摘要：** 我们提出DualConv，一种融合$3\times3$和$1\times1$卷积的轻量级DNN技术，适用于资源有限的系统。它通过组卷积结合两种卷积核，减少计算和参数量，同时增强准确性。在MobileNetV2上，参数减少54%，CIFAR-100精度仅降0.68%。在YOLOv3中，DualConv提升检测速度并增4.4%的PASCAL VOC准确性。论文及代码已开源。

YOLO创新改进大师

264 4 4

Deephub

10月前

存储缓存分布式计算

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

YOCO是一种新的解码器-解码器架构，旨在解决大型语言模型推理时的内存限制问题。通过只缓存一次键值对，YOCO显著减少了GPU内存占用，与Transformer相比，内存使用降低了约L倍。模型由自解码器和交叉解码器组成，自解码器使用滑动窗口注意力，而交叉解码器利用全局KV缓存。实验表明，YOCO在保持竞争力的性能同时，提高了推理速度，尤其是在处理长序列时。此外，YOCO还减少了预填充时间，提升了吞吐量。

Deephub

370 3 3

路人贾jia

机器学习/深度学习自然语言处理算法

【Transformer系列（1）】encoder（编码器）和decoder（解码器）

路人贾jia

4523 0 0

Poly-encoder 架构

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Poly-encoder 架构

热门文章

最新文章

相关电子书