Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区718

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1193篇文章
178条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年08月

2024年07月

  • 07.28 16:25:43
    发表了文章 2024-07-28 16:25:43

    深度学习中常用损失函数介绍

    选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数,并附有易于理解的解释、用法和示例
  • 07.27 09:34:31
    发表了文章 2024-07-27 09:34:31

    大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

    在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。
  • 07.26 10:48:56
    发表了文章 2024-07-26 10:48:56

    精简模型,提升效能:线性回归中的特征选择技巧

    在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。
  • 07.25 10:29:47
    发表了文章 2024-07-25 10:29:47

    贝叶斯分析与决策理论:用于确定分类问题决策点的应用

    在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
  • 07.24 10:15:07
    发表了文章 2024-07-24 10:15:07

    大语言模型对时间序列预测真的有用吗?

    我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。
  • 07.23 11:02:13
    发表了文章 2024-07-23 11:02:13

    用PyTorch从零开始编写DeepSeek-V2

    DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。
  • 07.22 10:05:04
    发表了文章 2024-07-22 10:05:04

    VQ-VAE:矢量量化变分自编码器,离散化特征学习模型

    VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
  • 07.20 10:58:34
    发表了文章 2024-07-20 10:58:34

    多任务高斯过程数学原理和Pytorch实现示例

    本文探讨了如何使用高斯过程扩展到多任务场景,强调了多任务高斯过程(MTGP)在处理相关输出时的优势。通过独立多任务GP、内在模型(ICM)和线性模型(LMC)的核心区域化方法,MTGP能够捕捉任务间的依赖关系,提高泛化能力。ICM和LMC通过引入核心区域化矩阵来学习任务间的共享结构。在PyTorch中,使用GPyTorch库展示了如何实现ICM模型,包括噪声建模和训练过程。实验比较了MTGP与独立GP,显示了MTGP在预测性能上的提升。
  • 07.19 11:03:31
    发表了文章 2024-07-19 11:03:31

    使用Pytorch中从头实现去噪扩散概率模型(DDPM)

    在本文中,我们将构建基础的无条件扩散模型,即去噪扩散概率模型(DDPM)。从探究算法的直观工作原理开始,然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。
  • 07.18 11:20:03
    发表了文章 2024-07-18 11:20:03

    谷歌的时间序列预测的基础模型TimesFM详解和对比测试

    在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
  • 07.17 09:47:12
    发表了文章 2024-07-17 09:47:12

    Pytorch的编译新特性TorchDynamo的工作原理和使用示例

    PyTorch的TorchDynamo是一个即时编译器,用于优化动态图执行,提高运行效率。它在运行时分析和转换代码,应用优化技术,如操作符融合,然后编译成高效机器码。通过一个包含特征工程、超参数调整、交叉验证的合成数据集示例,展示了TorchDynamo如何减少训练时间并提高模型性能。它易于集成,只需对现有PyTorch代码进行小改动,即可利用其性能提升。TorchDynamo的优化包括动态捕获计算图、应用优化和编译,适用于实时应用和需要快速响应的场景。
  • 07.16 11:48:28
    发表了文章 2024-07-16 11:48:28

    注意力机制中三种掩码技术详解和Pytorch实现

    **注意力机制中的掩码在深度学习中至关重要,如Transformer模型所用。掩码类型包括:填充掩码(忽略填充数据)、序列掩码(控制信息流)和前瞻掩码(自回归模型防止窥视未来信息)。通过创建不同掩码,如上三角矩阵,模型能正确处理变长序列并保持序列依赖性。在注意力计算中,掩码修改得分,确保模型学习的有效性。这些技术在现代NLP和序列任务中是核心组件。**
  • 07.15 10:46:08
    发表了文章 2024-07-15 10:46:08

    Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

    在NLP中,位置编码如RoPE、CoPE等增强模型对序列顺序的理解。RoPE通过旋转矩阵编码位置,适应不同距离的相对位置。线性旋转、NTK和YaRN是RoPE的变体,优化长序列处理。CoPE是动态的,根据序列内容调整位置编码,改善长距离依赖的捕捉。这些技术提升了模型在处理复杂语言任务时的性能。
  • 07.14 11:16:45
    发表了文章 2024-07-14 11:16:45

    Doping:使用精心设计的合成数据测试和评估异常检测器的技术

    在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。
  • 07.13 11:33:29
    发表了文章 2024-07-13 11:33:29

    持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

    在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。
  • 07.12 11:25:52
    发表了文章 2024-07-12 11:25:52

    Lookback Lens:用注意力图检测和减轻llm的幻觉

    这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。
  • 07.11 10:49:56
    发表了文章 2024-07-11 10:49:56

    LLM代理应用实战:构建Plotly数据可视化代理

    构建数据可视化代理解决了LLM(大型语言模型)在理解和生成定制图表时的局限性。代理提供DataFrame信息和自定义样式工具,简化与LLM的交互。选择了Plotly而非Matplotlib,因其交互性和Web渲染能力更适合现代可视化。代理通过元数据索引了解数据集详情,并根据样式指示生成符合特定审美的图表。通过ReActAgent和Groq模型,代理能理解用户指令,生成准确的Plotly代码,从而创建定制图表,提高了数据可视化的效率和准确性。
  • 07.10 11:15:47
    发表了文章 2024-07-10 11:15:47

    统计学入门:时间序列分析基础知识详解

    本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。
  • 07.09 10:49:05
    发表了文章 2024-07-09 10:49:05

    11个提升Python列表编码效率的高级技巧

    Python中关于列表的一些很酷的技巧
  • 07.08 10:49:00
    发表了文章 2024-07-08 10:49:00

    LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

    有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
  • 07.07 10:41:43
    发表了文章 2024-07-07 10:41:43

    PyTorch中的多进程并行处理

    这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。
  • 07.06 11:42:43
    发表了文章 2024-07-06 11:42:43

    2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐

    本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
  • 07.05 10:54:00
    发表了文章 2024-07-05 10:54:00

    RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

    新框架提出智能路由选择在强弱语言模型间,利用用户偏好的学习来预测强模型胜率,基于成本阈值做决策。在大规模LLMs部署中,该方法显著降低成本而不牺牲响应质量。研究显示,经过矩阵分解和BERT等技术训练的路由器在多个基准上提升性能,降低强模型调用,提高APGR。通过数据增强,如MMLU和GPT-4评审数据,路由器在GSM8K、MMLU等测试中展现出色的性能提升和成本效率。未来将测试更多模型组合以验证迁移学习能力。该框架为LLMs部署提供了成本-性能优化的解决方案。
  • 07.04 11:24:22
    发表了文章 2024-07-04 11:24:22

    字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

    在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
  • 07.03 14:44:18
    发表了文章 2024-07-03 14:44:18

    使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型

    本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。
  • 07.02 11:37:41
    发表了文章 2024-07-02 11:37:41

    图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

    目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
  • 07.01 10:48:36
    发表了文章 2024-07-01 10:48:36

    DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?

    DeepMind的LOFT基准测试挑战了长上下文大型语言模型(LCLLMs)的效用,包括Gemini、GPT-4o和Claude 3 Opus。

2024年06月

  • 06.30 11:48:39
    发表了文章 2024-06-30 11:48:39

    深入解析高斯过程:数学理论、重要概念和直观可视化全解

    这篇文章探讨了高斯过程作为解决小数据问题的工具,介绍了多元高斯分布的基础和其边缘及条件分布的性质。文章通过线性回归与维度诅咒的问题引出高斯过程,展示如何使用高斯过程克服参数爆炸的问题。作者通过数学公式和可视化解释了高斯过程的理论,并使用Python的GPy库展示了在一维和多维数据上的高斯过程回归应用。高斯过程在数据稀疏时提供了一种有效的方法,但计算成本限制了其在大数据集上的应用。
  • 06.29 10:44:04
    发表了文章 2024-06-29 10:44:04

    Transformer 能代替图神经网络吗?

    Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
  • 06.28 11:43:05
    发表了文章 2024-06-28 11:43:05

    RAG流程优化(微调)的4个基本策略

    在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。
  • 06.27 10:22:13
    发表了文章 2024-06-27 10:22:13

    Theta方法:一种时间序列分解与预测的简化方法

    Theta方法整合了两个基本概念:分解时间序列和利用基本预测技术来估计未来的价值。
  • 06.26 11:42:22
    发表了文章 2024-06-26 11:42:22

    精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手

    这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
  • 06.25 12:14:34
    发表了文章 2024-06-25 12:14:34

    2024年6月上半月30篇大语言模型的论文推荐

    大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
  • 06.24 11:01:51
    发表了文章 2024-06-24 11:01:51

    特征工程与数据预处理全解析:基础技术和代码示例

    在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。
  • 06.23 11:15:39
    发表了文章 2024-06-23 11:15:39

    2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

    6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
  • 06.22 11:02:20
    发表了文章 2024-06-22 11:02:20

    使用粒子滤波(particle filter)进行视频目标跟踪

    粒子滤波是一种贝叶斯滤波方法,主要用于非线性、非高斯动态系统中的状态估计。它通过使用一组随机样本(称为粒子)来表示状态的后验概率分布,并通过这些粒子的加权平均来估计状态。
  • 06.21 11:01:05
    发表了文章 2024-06-21 11:01:05

    HUSKY:一个优化大语言模型多步推理的新代理框架

    HUSKY是开源语言代理,专注复杂任务处理,如数字、表格及知识推理。通过多步计划和专家模型执行,它能迭代解决问题。在多模态任务中,即使使用小型模型,HUSKY也能匹敌GPT-4。训练涉及教师模型创建解决方案轨迹,以泛化处理广泛任务。在数值、表格和知识推理任务上表现出色,通过整合高效模型,HUSKY展示了在复杂推理领域的潜力。
  • 06.20 11:27:22
    发表了文章 2024-06-20 11:27:22

    使用深度强化学习预测股票:DQN 、Double DQN和Dueling Double DQN对比和代码示例

    深度强化学习可以将深度学习与强化学习相结合:深度学习擅长从原始数据中学习复杂的表示,强化学习则使代理能够通过反复试验在给定环境中学习最佳动作。通过DRL,研究人员和投资者可以开发能够分析历史数据的模型,理解复杂的市场动态,并对股票购买、销售或持有做出明智的决策。
  • 06.19 10:49:30
    发表了文章 2024-06-19 10:49:30

    goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性

    LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。
  • 06.18 10:23:28
    发表了文章 2024-06-18 10:23:28

    Multi-Head RAG:多头注意力的激活层作为嵌入进行文档检索

    现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远,这样会导致检索过程变得复杂并且无效。为了解决这个问题,论文引入了多头RAG (MRAG),这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。
  • 06.17 12:33:53
    发表了文章 2024-06-17 12:33:53

    MLOps模型部署的三种策略:批处理、实时、边缘计算

    机器学习运维(MLOps)是一组用于自动化和简化机器学习(ML)工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求,采用不同的部署策略。在这篇文章中,我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。
  • 06.16 09:56:37
    发表了文章 2024-06-16 09:56:37

    Pixel Transformer:用像素代替补丁可以提升图像分类精度

    **Pixel Transformer** 挑战了ViT的16×16像素块范式,将每个像素作为独立令牌,消除局部偏置。在多种任务中,包括图像分类和生成,性能显著提升,尤其是在CIFAR-100和ImageNet上。通过单像素处理,模型能捕获更精细细节,增强泛化能力。尽管计算复杂性增加,但研究表明这种方法有潜力推动视觉模型和跨模态学习的发展。[[https://avoid.overfit.cn/post/558881d4b25b4e9e944806441eaf887a]]
  • 06.15 10:49:41
    发表了文章 2024-06-15 10:49:41

    SOFTS: 时间序列预测的最新模型以及Python使用示例

    这是2024年4月《SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion》中提出的新模型,采用集中策略来学习不同序列之间的交互,从而在多变量预测任务中获得最先进的性能。
  • 发表了文章 2024-11-24

    IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

  • 发表了文章 2024-11-23

    图神经网络在欺诈检测与蛋白质功能预测中的应用概述

  • 发表了文章 2024-11-22

    优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本

  • 发表了文章 2024-11-21

    LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

  • 发表了文章 2024-11-20

    解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配

  • 发表了文章 2024-11-19

    使用Pytorch构建视觉语言模型(VLM)

  • 发表了文章 2024-11-18

    使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

  • 发表了文章 2024-11-17

    25 个值得关注的检索增强生成 (RAG) 模型和框架

  • 发表了文章 2024-11-16

    利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

  • 发表了文章 2024-11-15

    告别Print,使用IceCream进行高效的Python调试

  • 发表了文章 2024-11-14

    为什么卷积现在不火了:CNN研究热度降温的深层原因分析

  • 发表了文章 2024-11-13

    SMoA: 基于稀疏混合架构的大语言模型协同优化框架

  • 发表了文章 2024-11-12

    TSMamba:基于Mamba架构的高效时间序列预测基础模型

  • 发表了文章 2024-11-11

    基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架

  • 发表了文章 2024-11-10

    深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析

  • 发表了文章 2024-11-09

    通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

  • 发表了文章 2024-11-08

    贝叶斯统计中常见先验分布选择方法总结

  • 发表了文章 2024-11-07

    Tokenformer:基于参数标记化的高效可扩展Transformer架构

  • 发表了文章 2024-11-06

    基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践

  • 发表了文章 2024-11-05

    基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息