Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区718

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1193篇文章
178条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年05月

  • 04.22 11:02:04
    发表了文章 2024-04-22 11:02:04

    5种搭建LLM服务的方法和代码示例

    本文介绍了5种搭建开源大型语言模型服务的方法,包括使用Anaconda+CPU、Anaconda+GPU、Docker+GPU、Modal和AnyScale。CPU方法适合本地低门槛测试,但速度较慢;GPU方法显著提升速度,Docker简化环境配置,适合大规模部署;Modal提供按需付费的GPU服务,适合试验和部署;而AnyScale则以低门槛和低成本访问开源模型。每种方法都有其优缺点,选择取决于具体需求和资源。
  • 04.21 10:04:19
    发表了文章 2024-04-21 10:04:19

    使用ORPO微调Llama 3

    ORPO是一种结合监督微调和偏好对齐的新型微调技术,旨在减少训练大型语言模型所需资源和时间。通过在一个综合训练过程中结合这两种方法,ORPO优化了语言模型的目标,强化了对首选响应的奖励,弱化对不期望回答的惩罚。实验证明ORPO在不同模型和基准上优于其他对齐方法。本文使用Llama 3 8b模型测试ORPO,结果显示即使只微调1000条数据一个epoch,性能也有所提升,证实了ORPO的有效性。完整代码和更多细节可在相关链接中找到。
  • 04.20 10:46:13
    发表了文章 2024-04-20 10:46:13

    掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用

    本文介绍了时间序列特征工程,包括滚动统计量、滞后特征、差分和变换等技术,用于提升机器学习模型性能。文章还推荐了Python库`feature-engine`,用于简化特征提取,如处理缺失值、编码分类变量和进行时间序列转换。示例代码展示了如何使用`feature-engine`提取时间戳信息、创建滞后特征和窗口特征。通过创建管道,可以高效地完成整个特征工程流程,优化数据预处理并提高模型效果。
  • 04.19 11:55:23
    发表了文章 2024-04-19 11:55:23

    RAG 2.0架构详解:构建端到端检索增强生成系统

    RAG(检索增强生成)旨在通过提供额外上下文帮助大型语言模型(LLM)生成更精准的回答。现有的RAG系统由独立组件构成,效率不高。RAG 2.0提出了一种预训练、微调和对齐所有组件的集成方法,通过双重反向传播最大化性能。文章探讨了不同的检索策略,如TF-IDF、BM25和密集检索,并介绍了如SPLADE、DRAGON等先进算法。目前的挑战包括创建可训练的检索器和优化检索-生成流程。研究表明,端到端训练的RAG可能提供最佳性能,但资源需求高。未来研究需关注检索器的上下文化和与LLM的协同优化。
  • 04.17 09:51:07
    发表了文章 2024-04-17 09:51:07

    PyTorch小技巧:使用Hook可视化网络层激活(各层输出)

    这篇文章将演示如何可视化PyTorch激活层。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。
  • 04.16 10:04:33
    发表了文章 2024-04-16 10:04:33

    ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法

    ORPO是另一种新的LLM对齐方法,这种方法甚至不需要SFT模型。通过ORPO,LLM可以同时学习回答指令和满足人类偏好。
  • 04.15 10:02:01
    发表了文章 2024-04-15 10:02:01

    时空图神经网络ST-GNN的概念以及Pytorch实现

    本文介绍了图神经网络(GNN)在处理各种领域中相互关联的图数据时的作用,如分子结构和社交网络。GNN与序列模型(如RNN)结合形成的时空图神经网络(ST-GNN)能捕捉时间和空间依赖性。文章通过图示和代码示例解释了GNN和ST-GNN的基本原理,展示了如何将GNN应用于股票市场的数据,尽管不推荐将其用于实际的股市预测。提供的PyTorch实现展示了如何将时间序列数据转换为图结构并训练ST-GNN模型。
  • 04.14 11:33:17
    发表了文章 2024-04-14 11:33:17

    Moirai:Salesforce的时间序列预测基础模型

    过去几个月,时间序列基础模型发展迅速,包括TimeGPT、Lag-Llama、Google的TimesFM、Amazon的Chronos和Salesforce的Moirai。本文聚焦于Moirai,这是一个用于时间序列预测的通用模型,尤其强调零样本推理能力。Moirai处理各种数据频率、适应未知协变量并生成概率预测。文章介绍了Moirai的三个关键特性:多尺寸补丁投影层、任意变量注意力和混合分布。此外,还对比了Moirai与Chronos和TimeGPT,发现Moirai在性能上未超越Chronos,后者在数据效率上更优,但不支持多变量预测。
  • 04.12 11:43:07
    发表了文章 2024-04-12 11:43:07

    PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法

    我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。
  • 04.11 11:33:26
    发表了文章 2024-04-11 11:33:26

    10个大型语言模型(LLM)常见面试问题和答案解析

    今天我们来总结以下大型语言模型面试中常问的问题
  • 04.10 10:00:58
    发表了文章 2024-04-10 10:00:58

    推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍

    在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
  • 04.09 11:33:14
    发表了文章 2024-04-09 11:33:14

    ​5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

    本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。
  • 04.08 10:07:51
    发表了文章 2024-04-08 10:07:51

    为什么大型语言模型都在使用 SwiGLU 作为激活函数?

    SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。
  • 04.07 09:56:45
    发表了文章 2024-04-07 09:56:45

    归一化技术比较研究:Batch Norm, Layer Norm, Group Norm

    本文将使用合成数据集对三种归一化技术进行比较,并在每种配置下分别训练模型。记录训练损失,并比较模型的性能。
  • 04.03 10:12:32
    发表了文章 2024-04-03 10:12:32

    大模型中常用的注意力机制GQA详解以及Pytorch代码实现

    GQA是一种结合MQA和MHA优点的注意力机制,旨在保持MQA的速度并提供MHA的精度。它将查询头分成组,每组共享键和值。通过Pytorch和einops库,可以简洁实现这一概念。GQA在保持高效性的同时接近MHA的性能,是高负载系统优化的有力工具。相关论文和非官方Pytorch实现可进一步探究。
  • 04.01 10:24:17
    发表了文章 2024-04-01 10:24:17

    大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?

    Transformer的基石自2017年后历经变革,2022年RoPE引领NLP新方向,现已被顶级模型如Llama、Llama2等采纳。RoPE融合绝对与相对位置编码优点,解决传统方法的序列长度限制和相对位置表示问题。它通过旋转矩阵对词向量应用角度与位置成正比的旋转,保持向量稳定,保留相对位置信息,适用于长序列处理,提升了模型效率和性能。RoPE的引入开启了Transformer的新篇章,推动了NLP的进展。[[1](https://avoid.overfit.cn/post/9e0d8e7687a94d1ead9aeea65bb2a129)]
  • 03.31 10:34:09
    发表了文章 2024-03-31 10:34:09

    SiMBA:基于Mamba的跨图像和多元时间序列的预测模型

    微软研究者提出了SiMBA,一种融合Mamba与EinFFT的新架构,用于高效处理图像和时间序列。SiMBA解决了Mamba在大型网络中的不稳定性,结合了卷积、Transformer、频谱方法和状态空间模型的优点。在ImageNet 1K上表现优越,达到84.0%的Top-1准确率,并在多变量长期预测中超越SOTA,降低了MSE和MAE。代码开源,适用于复杂任务的高性能建模。[[论文链接]](https//avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb)
  • 03.30 19:40:30
    发表了文章 2024-03-30 19:40:30

    Quiet-STaR:让语言模型在“说话”前思考

    **Quiet-STaR** 是一种增强大型语言模型(LLM)推理能力的方法,它扩展了原有的**STaR** 技术,允许LLM为其生成的文本自动生成推理步骤。通过令牌并行抽样和学习的思想令牌,模型能同时预测单词和相关原理。教师强化指导确保输出的正确性。Quiet-STaR提升LLM在句子预测、复杂问题解答和推理基准测试上的表现,降低困惑度,促进更流畅的生成过程。未来研究将探索视觉和符号理由,以及结合可解释AI以提高模型透明度和定制化。[\[arXiv:2403.09629\]](https://arxiv.org/abs/2403.09629)
  • 03.29 11:57:25
    发表了文章 2024-03-29 11:57:25

    使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE

    MoE架构通过MergeKit实现新突破,允许整合预训练模型创建frankenMoEs,如FrankenMoE,区别于头开始训练的MoEs。MergeKit工具支持选择专家模型,定义正负提示,并生成MoE配置。
  • 03.28 11:19:15
    发表了文章 2024-03-28 11:19:15

    如何开始定制你自己的大型语言模型

    2023年,大型语言模型发展迅速,规模更大,性能更强。用户能否定制自己的模型取决于硬件资源。需在功能和成本间找到平衡,可以选择高性能(如40B+参数,适合专业用途,需强大GPU,成本高)或低性能(如7B参数,适合学习和简单应用,GPU成本较低)模型。训练模型可借助HuggingFace的Transformers库,定义数据集并进行训练。训练好的模型可使用Ollama和Open Web UI部署。具备适当GPU是入门基础。
  • 03.27 11:02:00
    发表了文章 2024-03-27 11:02:00

    Chronos: 将时间序列作为一种语言进行学习

    Chronos框架预训练时间序列模型,将序列值转为Transformer模型的tokens。通过缩放、量化处理,模型在合成及公共数据集上训练,参数量20M至710M不等。优于传统和深度学习模型,展示出色零样本预测性能。使用分类交叉熵损失,支持多模态输出分布学习。数据增强策略包括TSMix和KernelSynth。实验显示大型Chronos模型在概率和点预测上超越多种基线,且微调小型模型表现优异。虽然推理速度较慢,但其通用性简化了预测流程。论文探讨了优化潜力和未来研究方向。
  • 03.25 10:01:01
    发表了文章 2024-03-25 10:01:01

    使用GaLore在本地GPU进行高效的LLM调优

    GaLore是一种新的优化策略,它通过梯度低秩投影减少VRAM需求,使得大型语言模型(如70亿参数的模型)能在消费级GPU上进行微调,而不减少参数数量。与LoRA相比,GaLore内存效率更高,且性能相当或更优。它在反向传播期间逐层更新参数,降低了计算负荷。虽然GaLore训练时间较长,但它为个人爱好者提供了在有限资源下训练大模型的可能性。相关代码示例和性能对比显示了其优势。
  • 03.24 10:12:11
    发表了文章 2024-03-24 10:12:11

    8个常见的数据可视化错误以及如何避免它们

    本文揭示了8个数据可视化常见错误:误导色彩对比、过多的数据图表、省略基线、误导性标签、错误的可视化方法、不实的因果关系、放大有利数据和滥用3D图形。强调清晰、准确和洞察力的重要性,提醒制作者避免使用过多颜色、一次性展示大量数据、错误图表类型以及展示无关相关性等。正确可视化能有力支持决策,不应牺牲真实性以追求视觉效果。
  • 03.23 13:21:00
    发表了文章 2024-03-23 13:21:00

    BurstAttention:可对非常长的序列进行高效的分布式注意力计算

    研究人员探索了提高LLM注意力机制效率的策略,包括FlashAttention(利用SRAM加速)和RingAttention(分布式多设备处理)。新提出的BurstAttention结合两者,优化跨设备计算与通信,减少40%通信开销,使128K长度序列在8×A100 GPU上的训练速度翻倍。论文于3月发布,但实现未公开
  • 03.22 11:31:27
    发表了文章 2024-03-22 11:31:27

    文生图的基石CLIP模型的发展综述

    CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
  • 03.21 10:15:57
    发表了文章 2024-03-21 10:15:57

    Moment:又一个开源的时间序列基础模型

    MOMENT团队推出Time-series Pile,一个大型公共时间序列数据集,用于预训练首个开源时间序列模型家族。模型基于Transformer,采用遮蔽预训练技术,适用于预测、分类、异常检测和输入任务。研究发现,随机初始化比使用语言模型权重更有效,且直接预训练的模型表现出色。MOMENT改进了Transformer架构,调整了Layer norm并引入关系位置嵌入。模型在长期预测和异常检测中表现优异,但对于数值预测的效果尚不明朗。论文贡献包括开源方法、数据集创建和资源有限情况下的性能评估框架。
  • 03.20 10:52:23
    发表了文章 2024-03-20 10:52:23

    多项式朴素贝叶斯分类器

    本文介绍了多项式朴素贝叶斯分类器的工作原理,它基于多项分布而非高斯分布来估计类别概率。在文本分类等多类别问题中,该算法尤其适用。文章详细阐述了多项分布的概念,并通过实例解释了如何估计分布参数,包括使用平滑技巧处理未出现的特征。在分类过程中,使用对数空间计算以避免数值下溢。最后,文章通过scikit-learn展示了如何实际操作多项式朴素贝叶斯分类器。
  • 03.19 09:37:45
    发表了文章 2024-03-19 09:37:45

    在16G的GPU上微调Mixtral-8x7B

    Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。
  • 03.18 18:18:54
    发表了文章 2024-03-18 18:18:54

    2024年3月的计算机视觉论文推荐

    从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
  • 03.17 11:01:24
    发表了文章 2024-03-17 11:01:24

    时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较

    最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
  • 03.17 10:59:29
    发表了文章 2024-03-17 10:59:29

    微调大型语言模型进行命名实体识别

    大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练,能够对输入的文本进行分析,并生成符合语法和语境的回复。这种模型可以用于各种任务,包括问答系统、对话机器人、文本生成、翻译等。
  • 03.15 12:11:38
    发表了文章 2024-03-15 12:11:38

    LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA

    LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。
  • 03.14 11:32:58
    发表了文章 2024-03-14 11:32:58

    MADQN:多代理合作强化学习

    处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系可以是合作的,也可以是对抗,或者两者的混合。多代理的强化学习引入了更多的复杂性,每个代理的状态不仅包括对自身的观察,还包括对其他代理位置及其活动的观察。
  • 03.13 10:42:51
    发表了文章 2024-03-13 10:42:51

    2024年3月最新的深度学习论文推荐

    现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。
  • 03.12 10:09:42
    发表了文章 2024-03-12 10:09:42

    傅里叶变换算法和Python代码实现

    傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。
  • 03.11 11:05:20
    发表了文章 2024-03-11 11:05:20

    从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡

    通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。
  • 03.10 10:26:42
    发表了文章 2024-03-10 10:26:42

    Nomic Embed:能够复现的SOTA开源嵌入模型

    Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。
  • 03.09 09:44:51
    发表了文章 2024-03-09 09:44:51

    使用Tokeniser估算GPT和LLM服务的查询成本

    将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。
  • 03.08 10:54:21
    发表了文章 2024-03-08 10:54:21

    StarCoder 2:GitHub Copilot本地开源LLM替代方案

    GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。
  • 03.07 09:43:49
    发表了文章 2024-03-07 09:43:49

    LLM 加速技巧:Muti Query Attention

    MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。
  • 03.06 10:58:06
    发表了文章 2024-03-06 10:58:06

    RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

    Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local attention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffin在处理比训练时更长的序列时表现出色。这两种模型在硬件效率方面与Transformer相当,但在推理过程中具有更低的延迟和更高的吞吐量。Griffin的规模已扩展到了140亿个(14B)参数。
  • 03.05 10:26:42
    发表了文章 2024-03-05 10:26:42

    使用纹理对比度检测检测AI生成的图像

    在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像
  • 03.04 10:40:03
    发表了文章 2024-03-04 10:40:03

    Vision Transformers的注意力层概念解释和代码实现

    2017年推出《Attention is All You Need》以来,transformers 已经成为自然语言处理(NLP)的最新技术。2021年,《An Image is Worth 16x16 Words》,成功地将transformers 用于计算机视觉任务。从那时起,许多基于transformers的计算机视觉体系结构被提出。
  • 03.03 10:06:22
    发表了文章 2024-03-03 10:06:22

    使用TensorRT-LLM进行生产环境的部署指南

    TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
  • 03.02 13:55:12
    发表了文章 2024-03-02 13:55:12

    Pytorch中张量的高级选择操作

    在某些情况下,我们需要用Pytorch做一些高级的索引/选择,所以在这篇文章中,我们将介绍这类任务的三种最常见的方法:torch.index_select, torch.gather and torch.take
  • 03.01 10:24:17
    发表了文章 2024-03-01 10:24:17

    可视化FAISS矢量空间并调整RAG参数提高结果精度

    随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内部,以确保合规性、商业秘密或隐私。当查询这些文件时,会使得LLM产生幻觉,产生不相关、捏造或不一致的内容。
  • 02.29 10:52:20
    发表了文章 2024-02-29 10:52:20

    谷歌Gemma介绍、微调、量化和推理

    谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。
  • 02.28 10:44:54
    发表了文章 2024-02-28 10:44:54

    2024年2月深度学习的论文推荐

    我们这篇文章将推荐2月份发布的10篇深度学习的论文
  • 02.27 09:38:44
    发表了文章 2024-02-27 09:38:44

    PyTimeTK: 一个简单有效的时间序列分析库

    时间序列分析是数据科学的重要组成部分,特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点,以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法,我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ,它可以帮我们简化时间序列分析的很多步骤。
  • 02.26 10:14:29
    发表了文章 2024-02-26 10:14:29

    选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    OpenAI最近发布了他们的新一代嵌入模型*embedding v3*,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
  • 发表了文章 2024-11-24

    IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

  • 发表了文章 2024-11-23

    图神经网络在欺诈检测与蛋白质功能预测中的应用概述

  • 发表了文章 2024-11-22

    优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本

  • 发表了文章 2024-11-21

    LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

  • 发表了文章 2024-11-20

    解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配

  • 发表了文章 2024-11-19

    使用Pytorch构建视觉语言模型(VLM)

  • 发表了文章 2024-11-18

    使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

  • 发表了文章 2024-11-17

    25 个值得关注的检索增强生成 (RAG) 模型和框架

  • 发表了文章 2024-11-16

    利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

  • 发表了文章 2024-11-15

    告别Print,使用IceCream进行高效的Python调试

  • 发表了文章 2024-11-14

    为什么卷积现在不火了:CNN研究热度降温的深层原因分析

  • 发表了文章 2024-11-13

    SMoA: 基于稀疏混合架构的大语言模型协同优化框架

  • 发表了文章 2024-11-12

    TSMamba:基于Mamba架构的高效时间序列预测基础模型

  • 发表了文章 2024-11-11

    基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架

  • 发表了文章 2024-11-10

    深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析

  • 发表了文章 2024-11-09

    通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

  • 发表了文章 2024-11-08

    贝叶斯统计中常见先验分布选择方法总结

  • 发表了文章 2024-11-07

    Tokenformer:基于参数标记化的高效可扩展Transformer架构

  • 发表了文章 2024-11-06

    基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践

  • 发表了文章 2024-11-05

    基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息