Poly-encoder 架构

简介: Poly-encoder 架构
Poly-encoders: architectures and pre-training strategies for fast and accurate 
                            multi-sentence scoring
 非官方github : https://github.com/chijames/Poly-Encoder
                https://github.com/sfzhou5678/PolyEncoder


Poly-encoder 架构可以用于推荐和搜索领域,只要是涉及两个 sequence 的比较的情况,都可以应用 Poly-encoder。


在速度上优于  cross-encoder,  质量上优于 bi-encoder 。


可以和 StarSpace (一种 learn-to-rank 模型, 效果好于 FastText 和 SVM), 以及最近邻库 FAISS 来使用。


视频讲解地址 https://www.zhihu.com/zvideo/1455299489448202240



image.png


https://blog.csdn.net/qq_43390809/article/details/113586877

https://blog.csdn.net/xixiaoyaoww/article/details/108525940

https://zhuanlan.zhihu.com/p/380867813

https://blog.csdn.net/choose_c/article/details/118270484



目录
相关文章
|
7月前
|
机器学习/深度学习 XML 自然语言处理
Transformer 架构—Encoder-Decoder
Transformer 架构—Encoder-Decoder
340 1
|
机器学习/深度学习 人工智能 PyTorch
|
7月前
|
存储 缓存 分布式计算
You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构
YOCO是一种新的解码器-解码器架构,旨在解决大型语言模型推理时的内存限制问题。通过只缓存一次键值对,YOCO显著减少了GPU内存占用,与Transformer相比,内存使用降低了约L倍。模型由自解码器和交叉解码器组成,自解码器使用滑动窗口注意力,而交叉解码器利用全局KV缓存。实验表明,YOCO在保持竞争力的性能同时,提高了推理速度,尤其是在处理长序列时。此外,YOCO还减少了预填充时间,提升了吞吐量。
274 3
|
机器学习/深度学习 自然语言处理 算法
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
4093 0
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
|
7月前
|
机器学习/深度学习 自然语言处理 机器人
编码器-解码器(Encoder-Decoder)结构
编码器-解码器(Encoder-Decoder)结构
815 5
|
7月前
|
机器学习/深度学习 存储 人工智能
另一种替代Transformer架构将得到有意义的采用
【1月更文挑战第15天】另一种替代Transformer架构将得到有意义的采用
300 2
另一种替代Transformer架构将得到有意义的采用
|
7月前
|
机器学习/深度学习 算法 索引
Transformer中解码器decoder的详细讲解(图文解释)
Transformer中解码器decoder的详细讲解(图文解释)
888 0
Transformer中解码器decoder的详细讲解(图文解释)
|
机器学习/深度学习 算法 计算机视觉
全新Backbone | Pale Transformer完美超越Swin Transformer(二)
全新Backbone | Pale Transformer完美超越Swin Transformer(二)
176 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【12】自编码器(Auto-Encoder)的介绍与pytorch实现
【12】自编码器(Auto-Encoder)的介绍与pytorch实现
1086 0
【12】自编码器(Auto-Encoder)的介绍与pytorch实现
|
机器学习/深度学习 人工智能 TensorFlow
MobileNetV2架构解析
MobileNetV2先使用`1*1`卷积升维,在高维空间下使用`3*3`的深度卷积,在使用`1*1`卷积降维,在降维时采用线性激活函数。当步长为1时,使用残差连接输入和输出;当步长为2时,不适用残差连接,因为此时的输入特征矩阵和输出特征矩阵的shaoe不相等
515 0
MobileNetV2架构解析