开发者社区 问答 正文

什么是 Attention 机制?它在 Transformer 中起什么作用?

什么是 Attention 机制?它在 Transformer 中起什么作用?

展开
收起
夹心789 2024-06-27 12:03:40 46 分享 版权
1 条回答
写回答
取消 提交回答
  • Attention 机制是 Transformer 模型中的核心部分,它的作用是对历史 token 序列进行回顾,并根据不同 token 的重要性重新组合 embedding 向量的块,并赋予一定的权重。这样,模型在生成下一个 token 时,可以更加关注与当前任务相关的历史信息,从而提高生成文本的质量和准确性。

    2024-06-27 13:27:26
    赞同 4 展开评论
问答地址: