Poly-encoder 架构

简介: Poly-encoder 架构
Poly-encoders: architectures and pre-training strategies for fast and accurate 
                            multi-sentence scoring
 非官方github : https://github.com/chijames/Poly-Encoder
                https://github.com/sfzhou5678/PolyEncoder


Poly-encoder 架构可以用于推荐和搜索领域,只要是涉及两个 sequence 的比较的情况,都可以应用 Poly-encoder。


在速度上优于  cross-encoder,  质量上优于 bi-encoder 。


可以和 StarSpace (一种 learn-to-rank 模型, 效果好于 FastText 和 SVM), 以及最近邻库 FAISS 来使用。


视频讲解地址 https://www.zhihu.com/zvideo/1455299489448202240



image.png


https://blog.csdn.net/qq_43390809/article/details/113586877

https://blog.csdn.net/xixiaoyaoww/article/details/108525940

https://zhuanlan.zhihu.com/p/380867813

https://blog.csdn.net/choose_c/article/details/118270484



目录
相关文章
|
6月前
|
机器学习/深度学习 XML 自然语言处理
Transformer 架构—Encoder-Decoder
Transformer 架构—Encoder-Decoder
312 1
|
6月前
|
数据采集 自然语言处理 搜索推荐
ModelScope问题之模型encoder配置报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
235 0
|
机器学习/深度学习 人工智能 PyTorch
|
6月前
|
存储 缓存 分布式计算
You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构
YOCO是一种新的解码器-解码器架构,旨在解决大型语言模型推理时的内存限制问题。通过只缓存一次键值对,YOCO显著减少了GPU内存占用,与Transformer相比,内存使用降低了约L倍。模型由自解码器和交叉解码器组成,自解码器使用滑动窗口注意力,而交叉解码器利用全局KV缓存。实验表明,YOCO在保持竞争力的性能同时,提高了推理速度,尤其是在处理长序列时。此外,YOCO还减少了预填充时间,提升了吞吐量。
211 3
|
机器学习/深度学习 自然语言处理 算法
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
3850 0
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
|
6月前
|
机器学习/深度学习 自然语言处理 机器人
编码器-解码器(Encoder-Decoder)结构
编码器-解码器(Encoder-Decoder)结构
640 5
|
6月前
|
机器学习/深度学习 存储 人工智能
另一种替代Transformer架构将得到有意义的采用
【1月更文挑战第15天】另一种替代Transformer架构将得到有意义的采用
230 2
另一种替代Transformer架构将得到有意义的采用
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
MLP-Like Backbone | Strip-MLP跨行Token交互比SWin Transformer更轻更强的性能
MLP-Like Backbone | Strip-MLP跨行Token交互比SWin Transformer更轻更强的性能
175 1
|
6月前
|
机器学习/深度学习 算法 索引
Transformer中解码器decoder的详细讲解(图文解释)
Transformer中解码器decoder的详细讲解(图文解释)
730 0
Transformer中解码器decoder的详细讲解(图文解释)
|
机器学习/深度学习 人工智能 缓存
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数
264 0