Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区1042

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1485篇文章
353条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年09月

  • 09.01 09:44:43
    发表了文章 2024-09-01 09:44:43

    压缩大型语言模型(LLMs):缩小10倍、性能保持不变

    尽管大规模语言模型(LLMs)在多种应用场景中表现出色,但其庞大的规模也带来了实际部署难题。本文探讨了通过模型压缩技术解决这些问题的方法,介绍了量化、剪枝和知识蒸馏三种主要压缩技术,并通过具体Python代码示例展示了如何将一个100M参数的文本分类模型压缩至52.8M参数,再通过4位量化进一步减小至原来的1/7,同时保持甚至提升性能。示例代码展示了从数据预处理、模型训练到评估的完整流程,证明了压缩技术的有效性。

2024年08月

  • 08.31 10:13:55
    发表了文章 2024-08-31 10:13:55

    6种有效的时间序列数据特征工程技术(使用Python)

    在本文中,我们将探讨使用日期时间列提取有用信息的各种特征工程技术。
  • 08.30 09:14:44
    发表了文章 2024-08-30 09:14:44

    PyTorch数据处理:torch.utils.data模块的7个核心函数详解

    在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数据处理工具
  • 08.28 10:41:51
    发表了文章 2024-08-28 10:41:51

    使用 Python TorchRL 进行多代理强化学习

    本文详细介绍了如何使用TorchRL库解决多代理强化学习(MARL)问题,重点讨论了在多代理环境中应用近端策略优化(PPO)。通过使用VMAS模拟器,该文展示了如何在GPU上并行训练多机器人系统,使其在避免碰撞的同时到达目标。文章涵盖了依赖项安装、PPO原理、策略与评论家网络设计、数据收集及训练循环,并强调了TorchRL在简化开发流程、提升计算效率方面的优势。无论是集中式还是分布式评论家配置,TorchRL均能有效支持复杂的MARL研究与实践。
  • 08.27 10:54:10
    发表了文章 2024-08-27 10:54:10

    深入理解GPU内存分配:机器学习工程师的实用指南与实验

    给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?
  • 08.26 20:47:22
    发表了文章 2024-08-26 20:47:22

    时间序列特征提取:从理论到Python代码实践

    时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。
  • 08.25 16:32:17
    发表了文章 2024-08-25 16:32:17

    高效的时间序列可视化:减少认知负荷获得更清晰的洞察

    本文探讨了时间序列数据可视化中的挑战,特别是在处理多个数据集时。通过减少认知负荷,即处理信息所需的脑力,良好的可视化设计能帮助观察者更快理解数据趋势。文章以疫苗接种数据为例,展示了不同类型的图表(如无连线散点图、带连线散点图、纯折线图以及带有填充区域的折线图)在展示单一时间序列时的效果,并对比了多种多时间序列可视化方法,包括无连线散点图、带连线的折线图以及直接标注的图表,以突出最佳实践。通过这些例子,文章强调了减少认知负荷的重要性,它能帮助观察者快速理解趋势、避免误解并维持较高的参与度。最终目的是通过清晰且直观的设计来提升数据理解效率,支持更优的决策制定。
  • 08.24 19:29:45
    发表了文章 2024-08-24 19:29:45

    XGBoost中正则化的9个超参数

    本文探讨了XGBoost中多种正则化方法及其重要性,旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值,并指出正则化对于缓解过拟合问题的关键作用,具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后,文章详细介绍了四种正则化方法:减少估计器数量(如使用`early_stopping_rounds`)、使用更简单的树(如调整`gamma`和`max_depth`)、采样(如设置`subsample`和`colsample`)以及收缩(如调节`learning_rate`, `lambda`和`alpha`)。
  • 08.23 10:48:14
    发表了文章 2024-08-23 10:48:14

    基于重要性加权的LLM自我改进:考虑分布偏移的新框架

    本文提出一种新的大型语言模型(LLM)自我改进框架——基于重要性加权的自我改进(IWSI),旨在优化自动生成数据的质量。通过引入DS权重指标衡量数据的分布偏移程度(DSE),该方法不仅能确保答案正确性,还能过滤掉那些虽正确但分布上偏离较大的样本,以提升自我训练的效果。IWSI使用一个小的有效数据集来估算每个自生成样本的DS权重,并据此进行筛选。实验结果显示,相比于仅依赖答案正确性的传统方法,IWSI能更有效地提高LLM在多种任务上的表现。特别是在数学问题解答任务上,相较于基线方法,IWSI带来了显著的性能提升,证实了过滤高DSE样本的重要性及该方法的有效性。
  • 08.22 11:38:58
    发表了文章 2024-08-22 11:38:58

    基于距离度量学习的异常检测:一种通过相关距离度量的异常检测方法

    异常是数据集中显著偏离多数观察值的记录。例如,在由多个紧密簇构成的数据集中,远离这些簇的孤立点常被视为异常。检测这类异常的传统方法依赖于距离度量,如欧几里得距离或Gower距离,但这些方法可能无法妥善处理特征间的复杂关系或权重问题。为此,本文介绍了一种基于距离度量学习的方法,特别是利用随机森林来评估记录间的相似性。此方法通过构建能够区分真实数据与合成数据的随机森林模型,进而依据记录在树结构中的路径一致性来衡量其相似度。异常记录往往会在多数树中到达较少记录所在的叶节点。
  • 08.21 10:07:57
    发表了文章 2024-08-21 10:07:57

    泊松自助法(Poisson Bootstrap Sampling):大型数据集上的自助抽样

    自助抽样通过重采样评估统计量的稳定性和不确定性,无需强假设数据分布,能反映数据变异性并适用于小样本或复杂模型。泊松自助抽样作为一种改进,利用泊松分布生成重采样,尤其适合大数据和流数据场景,减少了数据遍历次数,可在分布式系统中高效并行处理。相较于经典自助抽样,泊松自助抽样能够保留数据多样性,更适合不平衡数据集,并在某些情况下提供更精确的统计估计。
  • 08.20 11:46:49
    发表了文章 2024-08-20 11:46:49

    深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例

    本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
  • 08.19 10:26:22
    发表了文章 2024-08-19 10:26:22

    三元组损失Triplet loss 详解

    在这篇文章中,我们将以简单的技术术语解析三元组损失及其变体批量三元组损失,并提供一个相关的例子来帮助你理解这些概念。
  • 08.17 10:12:21
    发表了文章 2024-08-17 10:12:21

    将VAE用于时间序列:生成时间序列的合成数据

    变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上,也可以创建时间序列数据。标准VAE可以被改编以捕捉时间序列数据的周期性和顺序模式,然后用于生成合成数据。本文将使用**一维卷积层**、**策略性的步幅选择**、**灵活的时间维度**和**季节性依赖的先验**来模拟温度数据。
  • 08.16 10:07:20
    发表了文章 2024-08-16 10:07:20

    LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

    本文介绍了一种名为AgentWrite的方法,旨在克服大型语言模型(LLM)生成长文本时的局限。通过将任务分解为子任务,AgentWrite使LLM能生成超过20,000词的连贯文本。研究揭示了监督微调数据中的输出长度限制是导致LLM生成长度受限的主要原因。通过构建LongWriter-6k数据集并对模型进行再训练,成功扩展了输出长度至10,000词以上,且未牺牲输出质量。
  • 08.15 10:17:28
    发表了文章 2024-08-15 10:17:28

    60行代码就可以训练/微调 Segment Anything 2 (SAM 2)

    本文演示了如何在仅60行代码内(不包括标注和导入)对SAM2进行微调。
  • 08.14 11:01:37
    发表了文章 2024-08-14 11:01:37

    音频去噪:使用Python和FFT增强音质

    声音去噪目标是改善聆听体验以及音频分析和处理的准确性。过滤掉噪音对于高保真音频来说非常重要,不仅是为了聆听,也是为了创建某些机器学习任务的数据集。
  • 08.13 10:04:41
    发表了文章 2024-08-13 10:04:41

    掌握 PyTorch 张量乘法:八个关键函数与应用场景对比解析

    PyTorch提供了几种张量乘法的方法,每种方法都是不同的,并且有不同的应用。我们来详细介绍每个方法,并且详细解释这些函数有什么区别:
  • 08.12 11:50:05
    发表了文章 2024-08-12 11:50:05

    使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间

    本文探讨了在Vision Transformer (ViT)架构中采用批量归一化(BatchNorm)替代层归一化(LayerNorm)的影响。ViT以其在计算机视觉领域的优异表现而闻名,但存在训练耗时长及对小型数据集推理速度慢的问题。文章提出两种改进模型:ViTBNFFN,在前馈网络中加入BatchNorm;ViTBN,则全面替换为BatchNorm。
  • 08.11 10:51:57
    发表了文章 2024-08-11 10:51:57

    Skeleton Recall Loss 分割领域的新突破:极大的减少了资源消耗,还能提高性能

    这篇论文则介绍了一个新的损失:Skeleton Recall Loss,我把它翻译成骨架召回损失.这个损失目前获得了最先进的整体性能,并且通过取代密集的计算**他的计算开销减少超过90% !**
  • 08.10 11:12:32
    发表了文章 2024-08-10 11:12:32

    多元时间序列分析统计学基础:基本概念、VMA、VAR和VARMA

    多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度,所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。
  • 08.03 12:10:52
    发表了文章 2024-08-03 12:10:52

    模型量化技术综述:揭示大型语言模型压缩的前沿技术

    在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
  • 08.02 12:09:06
    发表了文章 2024-08-02 12:09:06

    深入浅出:可视化理解揭示决策树与梯度提升背后的数学原理

    本文将通过视觉方式解释用于分类和回归问题的决策树的理论基础。我们将看到这个模型是如何工作的,以及为什么它可能会导致过拟合。首先将介绍梯度提升以及它是如何改善单个决策树的性能的。然后将用Python从头实现梯度提升回归器和分类器。最后详细解释梯度提升背后的数学原理。
  • 08.01 12:25:45
    发表了文章 2024-08-01 12:25:45

    Adam-mini:内存占用减半,性能更优的深度学习优化器

    论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。

2024年07月

  • 07.28 16:25:43
    发表了文章 2024-07-28 16:25:43

    深度学习中常用损失函数介绍

    选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数,并附有易于理解的解释、用法和示例
  • 07.27 09:34:31
    发表了文章 2024-07-27 09:34:31

    大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

    在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。
  • 07.26 10:48:56
    发表了文章 2024-07-26 10:48:56

    精简模型,提升效能:线性回归中的特征选择技巧

    在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。
  • 07.25 10:29:47
    发表了文章 2024-07-25 10:29:47

    贝叶斯分析与决策理论:用于确定分类问题决策点的应用

    在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
  • 07.24 10:15:07
    发表了文章 2024-07-24 10:15:07

    大语言模型对时间序列预测真的有用吗?

    我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。
  • 07.23 11:02:13
    发表了文章 2024-07-23 11:02:13

    用PyTorch从零开始编写DeepSeek-V2

    DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。
  • 07.22 10:05:04
    发表了文章 2024-07-22 10:05:04

    VQ-VAE:矢量量化变分自编码器,离散化特征学习模型

    VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
  • 07.20 10:58:34
    发表了文章 2024-07-20 10:58:34

    多任务高斯过程数学原理和Pytorch实现示例

    本文探讨了如何使用高斯过程扩展到多任务场景,强调了多任务高斯过程(MTGP)在处理相关输出时的优势。通过独立多任务GP、内在模型(ICM)和线性模型(LMC)的核心区域化方法,MTGP能够捕捉任务间的依赖关系,提高泛化能力。ICM和LMC通过引入核心区域化矩阵来学习任务间的共享结构。在PyTorch中,使用GPyTorch库展示了如何实现ICM模型,包括噪声建模和训练过程。实验比较了MTGP与独立GP,显示了MTGP在预测性能上的提升。
  • 07.19 11:03:31
    发表了文章 2024-07-19 11:03:31

    使用Pytorch中从头实现去噪扩散概率模型(DDPM)

    在本文中,我们将构建基础的无条件扩散模型,即去噪扩散概率模型(DDPM)。从探究算法的直观工作原理开始,然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。
  • 07.18 11:20:03
    发表了文章 2024-07-18 11:20:03

    谷歌的时间序列预测的基础模型TimesFM详解和对比测试

    在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
  • 07.17 09:47:12
    发表了文章 2024-07-17 09:47:12

    Pytorch的编译新特性TorchDynamo的工作原理和使用示例

    PyTorch的TorchDynamo是一个即时编译器,用于优化动态图执行,提高运行效率。它在运行时分析和转换代码,应用优化技术,如操作符融合,然后编译成高效机器码。通过一个包含特征工程、超参数调整、交叉验证的合成数据集示例,展示了TorchDynamo如何减少训练时间并提高模型性能。它易于集成,只需对现有PyTorch代码进行小改动,即可利用其性能提升。TorchDynamo的优化包括动态捕获计算图、应用优化和编译,适用于实时应用和需要快速响应的场景。
  • 07.16 11:48:28
    发表了文章 2024-07-16 11:48:28

    注意力机制中三种掩码技术详解和Pytorch实现

    **注意力机制中的掩码在深度学习中至关重要,如Transformer模型所用。掩码类型包括:填充掩码(忽略填充数据)、序列掩码(控制信息流)和前瞻掩码(自回归模型防止窥视未来信息)。通过创建不同掩码,如上三角矩阵,模型能正确处理变长序列并保持序列依赖性。在注意力计算中,掩码修改得分,确保模型学习的有效性。这些技术在现代NLP和序列任务中是核心组件。**
  • 07.15 10:46:08
    发表了文章 2024-07-15 10:46:08

    Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

    在NLP中,位置编码如RoPE、CoPE等增强模型对序列顺序的理解。RoPE通过旋转矩阵编码位置,适应不同距离的相对位置。线性旋转、NTK和YaRN是RoPE的变体,优化长序列处理。CoPE是动态的,根据序列内容调整位置编码,改善长距离依赖的捕捉。这些技术提升了模型在处理复杂语言任务时的性能。
  • 07.14 11:16:45
    发表了文章 2024-07-14 11:16:45

    Doping:使用精心设计的合成数据测试和评估异常检测器的技术

    在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。
  • 07.13 11:33:29
    发表了文章 2024-07-13 11:33:29

    持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

    在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。
  • 07.12 11:25:52
    发表了文章 2024-07-12 11:25:52

    Lookback Lens:用注意力图检测和减轻llm的幻觉

    这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。
  • 07.11 10:49:56
    发表了文章 2024-07-11 10:49:56

    LLM代理应用实战:构建Plotly数据可视化代理

    构建数据可视化代理解决了LLM(大型语言模型)在理解和生成定制图表时的局限性。代理提供DataFrame信息和自定义样式工具,简化与LLM的交互。选择了Plotly而非Matplotlib,因其交互性和Web渲染能力更适合现代可视化。代理通过元数据索引了解数据集详情,并根据样式指示生成符合特定审美的图表。通过ReActAgent和Groq模型,代理能理解用户指令,生成准确的Plotly代码,从而创建定制图表,提高了数据可视化的效率和准确性。
  • 07.10 11:15:47
    发表了文章 2024-07-10 11:15:47

    统计学入门:时间序列分析基础知识详解

    本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。
  • 07.09 10:49:05
    发表了文章 2024-07-09 10:49:05

    11个提升Python列表编码效率的高级技巧

    Python中关于列表的一些很酷的技巧
  • 07.08 10:49:00
    发表了文章 2024-07-08 10:49:00

    LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

    有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
  • 07.07 10:41:43
    发表了文章 2024-07-07 10:41:43

    PyTorch中的多进程并行处理

    这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。
  • 07.06 11:42:43
    发表了文章 2024-07-06 11:42:43

    2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐

    本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
  • 07.05 10:54:00
    发表了文章 2024-07-05 10:54:00

    RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

    新框架提出智能路由选择在强弱语言模型间,利用用户偏好的学习来预测强模型胜率,基于成本阈值做决策。在大规模LLMs部署中,该方法显著降低成本而不牺牲响应质量。研究显示,经过矩阵分解和BERT等技术训练的路由器在多个基准上提升性能,降低强模型调用,提高APGR。通过数据增强,如MMLU和GPT-4评审数据,路由器在GSM8K、MMLU等测试中展现出色的性能提升和成本效率。未来将测试更多模型组合以验证迁移学习能力。该框架为LLMs部署提供了成本-性能优化的解决方案。
  • 07.04 11:24:22
    发表了文章 2024-07-04 11:24:22

    字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

    在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
  • 07.03 14:44:18
    发表了文章 2024-07-03 14:44:18

    使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型

    本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。
  • 07.02 11:37:41
    发表了文章 2024-07-02 11:37:41

    图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

    目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
  • 发表了文章 2025-10-14

    LlamaIndex检索调优实战:分块、HyDE、压缩等8个提效方法快速改善答案质量

  • 发表了文章 2025-10-13

    斯坦福ACE框架:让AI自己学会写prompt,性能提升17%成本降87%

  • 发表了文章 2025-10-12

    氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"

  • 发表了文章 2025-10-11

    12 种 Pandas 测试技巧,让数据处理少踩坑

  • 发表了文章 2025-10-10

    mmBERT:307M参数覆盖1800+语言,3万亿tokens训练

  • 发表了文章 2025-10-09

    vLLM 吞吐量优化实战:10个KV-Cache调优方法让tokens/sec翻倍

  • 发表了文章 2025-10-08

    vLLM推理加速指南:7个技巧让QPS提升30-60%

  • 发表了文章 2025-10-06

    向量存储vs知识图谱:LLM记忆系统技术选型

  • 发表了文章 2025-10-05

    NumPy广播:12个技巧替代循环,让数组计算快40倍

  • 发表了文章 2025-10-04

    Google开源Tunix:JAX生态的LLM微调方案来了

  • 发表了文章 2025-10-03

    从DQN到Double DQN:分离动作选择与价值评估,解决强化学习中的Q值过估计问题

  • 发表了文章 2025-10-02

    PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题

  • 发表了文章 2025-10-01

    Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测

  • 发表了文章 2025-09-30

    Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性

  • 发表了文章 2025-09-29

    从零构建能自我优化的AI Agent:Reflection和Reflexion机制对比详解与实现

  • 发表了文章 2025-09-28

    从零构建短视频推荐系统:双塔算法架构解析与代码实现

  • 发表了文章 2025-09-27

    AI智能体框架怎么选?7个主流工具详细对比解析

  • 发表了文章 2025-09-26

    AI智能体开发实战:17种核心架构模式详解与Python代码实现

  • 发表了文章 2025-09-25

    Transformer自回归关键技术:掩码注意力原理与PyTorch完整实现

  • 发表了文章 2025-09-24

    从另一个视角看Transformer:注意力机制就是可微分的k-NN算法

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息