Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区749

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1224篇文章
212条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年07月

  • 07.15 10:46:08
    发表了文章 2024-07-15 10:46:08

    Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

    在NLP中,位置编码如RoPE、CoPE等增强模型对序列顺序的理解。RoPE通过旋转矩阵编码位置,适应不同距离的相对位置。线性旋转、NTK和YaRN是RoPE的变体,优化长序列处理。CoPE是动态的,根据序列内容调整位置编码,改善长距离依赖的捕捉。这些技术提升了模型在处理复杂语言任务时的性能。
  • 07.14 11:16:45
    发表了文章 2024-07-14 11:16:45

    Doping:使用精心设计的合成数据测试和评估异常检测器的技术

    在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。
  • 07.13 11:33:29
    发表了文章 2024-07-13 11:33:29

    持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

    在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。
  • 07.12 11:25:52
    发表了文章 2024-07-12 11:25:52

    Lookback Lens:用注意力图检测和减轻llm的幻觉

    这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。
  • 07.11 10:49:56
    发表了文章 2024-07-11 10:49:56

    LLM代理应用实战:构建Plotly数据可视化代理

    构建数据可视化代理解决了LLM(大型语言模型)在理解和生成定制图表时的局限性。代理提供DataFrame信息和自定义样式工具,简化与LLM的交互。选择了Plotly而非Matplotlib,因其交互性和Web渲染能力更适合现代可视化。代理通过元数据索引了解数据集详情,并根据样式指示生成符合特定审美的图表。通过ReActAgent和Groq模型,代理能理解用户指令,生成准确的Plotly代码,从而创建定制图表,提高了数据可视化的效率和准确性。
  • 07.10 11:15:47
    发表了文章 2024-07-10 11:15:47

    统计学入门:时间序列分析基础知识详解

    本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。
  • 07.09 10:49:05
    发表了文章 2024-07-09 10:49:05

    11个提升Python列表编码效率的高级技巧

    Python中关于列表的一些很酷的技巧
  • 07.08 10:49:00
    发表了文章 2024-07-08 10:49:00

    LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

    有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
  • 07.07 10:41:43
    发表了文章 2024-07-07 10:41:43

    PyTorch中的多进程并行处理

    这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。
  • 07.06 11:42:43
    发表了文章 2024-07-06 11:42:43

    2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐

    本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
  • 07.05 10:54:00
    发表了文章 2024-07-05 10:54:00

    RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

    新框架提出智能路由选择在强弱语言模型间,利用用户偏好的学习来预测强模型胜率,基于成本阈值做决策。在大规模LLMs部署中,该方法显著降低成本而不牺牲响应质量。研究显示,经过矩阵分解和BERT等技术训练的路由器在多个基准上提升性能,降低强模型调用,提高APGR。通过数据增强,如MMLU和GPT-4评审数据,路由器在GSM8K、MMLU等测试中展现出色的性能提升和成本效率。未来将测试更多模型组合以验证迁移学习能力。该框架为LLMs部署提供了成本-性能优化的解决方案。
  • 07.04 11:24:22
    发表了文章 2024-07-04 11:24:22

    字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

    在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
  • 07.03 14:44:18
    发表了文章 2024-07-03 14:44:18

    使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型

    本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。
  • 07.02 11:37:41
    发表了文章 2024-07-02 11:37:41

    图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

    目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
  • 07.01 10:48:36
    发表了文章 2024-07-01 10:48:36

    DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?

    DeepMind的LOFT基准测试挑战了长上下文大型语言模型(LCLLMs)的效用,包括Gemini、GPT-4o和Claude 3 Opus。

2024年06月

  • 06.30 11:48:39
    发表了文章 2024-06-30 11:48:39

    深入解析高斯过程:数学理论、重要概念和直观可视化全解

    这篇文章探讨了高斯过程作为解决小数据问题的工具,介绍了多元高斯分布的基础和其边缘及条件分布的性质。文章通过线性回归与维度诅咒的问题引出高斯过程,展示如何使用高斯过程克服参数爆炸的问题。作者通过数学公式和可视化解释了高斯过程的理论,并使用Python的GPy库展示了在一维和多维数据上的高斯过程回归应用。高斯过程在数据稀疏时提供了一种有效的方法,但计算成本限制了其在大数据集上的应用。
  • 06.29 10:44:04
    发表了文章 2024-06-29 10:44:04

    Transformer 能代替图神经网络吗?

    Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
  • 06.28 11:43:05
    发表了文章 2024-06-28 11:43:05

    RAG流程优化(微调)的4个基本策略

    在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。
  • 06.27 10:22:13
    发表了文章 2024-06-27 10:22:13

    Theta方法:一种时间序列分解与预测的简化方法

    Theta方法整合了两个基本概念:分解时间序列和利用基本预测技术来估计未来的价值。
  • 06.26 11:42:22
    发表了文章 2024-06-26 11:42:22

    精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手

    这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
  • 06.25 12:14:34
    发表了文章 2024-06-25 12:14:34

    2024年6月上半月30篇大语言模型的论文推荐

    大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
  • 06.24 11:01:51
    发表了文章 2024-06-24 11:01:51

    特征工程与数据预处理全解析:基础技术和代码示例

    在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。
  • 06.23 11:15:39
    发表了文章 2024-06-23 11:15:39

    2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

    6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
  • 06.22 11:02:20
    发表了文章 2024-06-22 11:02:20

    使用粒子滤波(particle filter)进行视频目标跟踪

    粒子滤波是一种贝叶斯滤波方法,主要用于非线性、非高斯动态系统中的状态估计。它通过使用一组随机样本(称为粒子)来表示状态的后验概率分布,并通过这些粒子的加权平均来估计状态。
  • 06.21 11:01:05
    发表了文章 2024-06-21 11:01:05

    HUSKY:一个优化大语言模型多步推理的新代理框架

    HUSKY是开源语言代理,专注复杂任务处理,如数字、表格及知识推理。通过多步计划和专家模型执行,它能迭代解决问题。在多模态任务中,即使使用小型模型,HUSKY也能匹敌GPT-4。训练涉及教师模型创建解决方案轨迹,以泛化处理广泛任务。在数值、表格和知识推理任务上表现出色,通过整合高效模型,HUSKY展示了在复杂推理领域的潜力。
  • 06.20 11:27:22
    发表了文章 2024-06-20 11:27:22

    使用深度强化学习预测股票:DQN 、Double DQN和Dueling Double DQN对比和代码示例

    深度强化学习可以将深度学习与强化学习相结合:深度学习擅长从原始数据中学习复杂的表示,强化学习则使代理能够通过反复试验在给定环境中学习最佳动作。通过DRL,研究人员和投资者可以开发能够分析历史数据的模型,理解复杂的市场动态,并对股票购买、销售或持有做出明智的决策。
  • 06.19 10:49:30
    发表了文章 2024-06-19 10:49:30

    goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性

    LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。
  • 06.18 10:23:28
    发表了文章 2024-06-18 10:23:28

    Multi-Head RAG:多头注意力的激活层作为嵌入进行文档检索

    现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远,这样会导致检索过程变得复杂并且无效。为了解决这个问题,论文引入了多头RAG (MRAG),这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。
  • 06.17 12:33:53
    发表了文章 2024-06-17 12:33:53

    MLOps模型部署的三种策略:批处理、实时、边缘计算

    机器学习运维(MLOps)是一组用于自动化和简化机器学习(ML)工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求,采用不同的部署策略。在这篇文章中,我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。
  • 06.16 09:56:37
    发表了文章 2024-06-16 09:56:37

    Pixel Transformer:用像素代替补丁可以提升图像分类精度

    **Pixel Transformer** 挑战了ViT的16×16像素块范式,将每个像素作为独立令牌,消除局部偏置。在多种任务中,包括图像分类和生成,性能显著提升,尤其是在CIFAR-100和ImageNet上。通过单像素处理,模型能捕获更精细细节,增强泛化能力。尽管计算复杂性增加,但研究表明这种方法有潜力推动视觉模型和跨模态学习的发展。[[https://avoid.overfit.cn/post/558881d4b25b4e9e944806441eaf887a]]
  • 06.15 10:49:41
    发表了文章 2024-06-15 10:49:41

    SOFTS: 时间序列预测的最新模型以及Python使用示例

    这是2024年4月《SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion》中提出的新模型,采用集中策略来学习不同序列之间的交互,从而在多变量预测任务中获得最先进的性能。
  • 06.14 10:21:12
    发表了文章 2024-06-14 10:21:12

    使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型

    本文探讨了一种名为“abliteration”的技术,该技术能够在不重新训练大型语言模型(LLM)的情况下移除其内置的安全审查机制。通常,LLM在接收到潜在有害输入时会拒绝执行,但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析,研究人员发现可以识别并消除导致拒绝行为的特定方向,从而允许模型响应所有类型的提示。
  • 06.13 10:49:46
    发表了文章 2024-06-13 10:49:46

    通过元学习优化增益模型的性能:基础到高级应用总结

    在当今数据驱动的决策过程中,因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系,而增益模型则专注于评估干预措施对个体的影响,从而优化策略和行动。然而,要提高这些模型的精确度和适应性,引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习技术,能够有效增强模型的表现。接下来,我们将详细探讨如何利用元学习优化增益模型的性能,特别是通过S-Learner、T-Learner和X-Learner这几种估计器。
  • 06.12 12:05:48
    发表了文章 2024-06-12 12:05:48

    使用PyTorch Profiler进行模型性能分析,改善并加速PyTorch训练

    加速机器学习模型训练是工程师的关键需求。PyTorch Profiler提供了一种分析工具,用于测量CPU和CUDA时间,以及内存使用情况。通过在训练代码中嵌入分析器并使用tensorboard查看结果,工程师可以识别性能瓶颈。Profiler的`record_function`功能允许为特定操作命名,便于跟踪。优化策略包括使用FlashAttention或FSDP减少内存使用,以及通过torch.compile提升速度。监控CUDA内核执行和内存分配,尤其是避免频繁的cudaMalloc,能有效提升GPU效率。内存历史记录分析有助于检测内存泄漏和优化批处理大小。
  • 06.11 11:15:03
    发表了文章 2024-06-11 11:15:03

    Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

    IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。
  • 06.10 12:11:33
    发表了文章 2024-06-10 12:11:33

    如何应对缺失值带来的分布变化?探索填充缺失值的最佳插补算法

    该文探讨了缺失值插补的不同方法,比较了它们恢复数据真实分布的效果。文章指出,处理插补尤其在小样本或复杂数据时是个挑战,需要选择能适应数据分布变化的方法。文中介绍了完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)三种机制,并以一个简单的例子展示了数据分布变化。文章通过比较均值插补、回归插补和高斯插补,强调了高斯插补在重现数据分布方面更优。评估插补方法时,不应仅依赖于RMSE,而应关注分布预测,使用如能量距离这样的指标。此外,即使在随机缺失情况下,数据分布也可能因模式变化而变化,需要考虑适应这些变化的插补方法。
  • 06.09 10:32:43
    发表了文章 2024-06-09 10:32:43

    数据并非都是正态分布:三种常见的统计分布及其应用

    这篇文章除了介绍线性模型在减肥app预测中的不切实际性,还探讨了不同统计分布在体重管理和数据分析中的应用。文章提到了正态分布和泊松分布,前者常用于描述围绕平均值对称分布的连续数据,如体重;后者适合计数数据,如体重变化次数。正态分布以其钟形曲线闻名,泊松分布则描述独立事件的数量。文章还简要介绍了卡方分布在检验分类变量关系时的作用。最后,文章指出了在线性回归中假设数据正态分布的原因,包括便于统计推断和最小化估计误差。
  • 06.08 10:04:45
    发表了文章 2024-06-08 10:04:45

    Block Transformer:通过全局到局部的语言建模加速LLM推理

    Block Transformer是一种优化自回归语言模型推理效率的新架构,通过块级自注意力来平衡全局和局部依赖,提高吞吐量。模型包含嵌入器、块解码器和令牌解码器,其中块解码器处理全局依赖,令牌解码器处理局部细节。这种方法减轻了KV缓存的延迟和内存开销,尤其是在长序列处理中。实验显示,尽管Block Transformer参数量增加,但推理速度显著提升,尤其是在大块长度和优化的组件比例下,实现了性能与速度的平衡。
  • 06.07 11:33:06
    发表了文章 2024-06-07 11:33:06

    CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型

    在3D医学图像分割领域,尽管出现了多种新架构和方法,但大多未能超越2018年nnU-Net基准。研究发现,许多新方法的优越性未经严格验证,揭示了验证方法的不严谨性。作者通过系统基准测试评估了CNN、Transformer和Mamba等方法,强调了配置和硬件资源的重要性,并更新了nnU-Net基线以适应不同条件。论文呼吁加强科学验证,以确保真实性能提升。通过nnU-Net的变体和新方法的比较,显示经典CNN方法在某些情况下仍优于理论上的先进方法。研究提供了新的标准化基线模型,以促进更严谨的性能评估。
  • 06.06 11:38:29
    发表了文章 2024-06-06 11:38:29

    从提示工程到代理工程:构建高效AI代理的策略框架概述

    该文探讨了AI代理的发展,特别是ChatGPT等模型如何展示了AI系统的潜力。文章提出从提示工程转向代理工程,定义了代理能力需求,并提出一个框架来设计和实施AI代理。代理工程涉及明确代理的任务、所需行动、能力及熟练度,通过现有技术满足这些需求。文章强调了广泛和特定知识的熟练度、精确信息获取以及代理的结构设计和协调。随着技术进步,该框架为AI代理的未来发展提供了基础。
  • 06.05 11:01:06
    发表了文章 2024-06-05 11:01:06

    一切模型皆可联邦化:高斯朴素贝叶斯代码示例

    一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习,其实基本上只要包含参数的机器学习方法都可以使用联邦学习的方法保证数据隐私
  • 06.04 11:46:48
    发表了文章 2024-06-04 11:46:48

    为什么你的RAG不起作用?失败的主要原因和解决方案

    企业在尝试使用检索增强生成(RAG)时遇到困难,因为系统效果不佳且难以优化。问题主要源于语义不协调,即任务理解与底层知识间的不一致。由于向量嵌入技术的不透明性,诊断和解决这个问题变得复杂。本文旨在揭示RAG失败的原因并提供改进策略。文章探讨了RAG的工作原理,强调了语义不协调的影响,并介绍了如何通过增加结构化数据和使用语义+相关性排名来提升RAG性能。此外,建议将AI视为工具而非完整解决方案,并提醒读者当前技术仍处早期阶段,需注意挑战。
  • 06.03 10:56:12
    发表了文章 2024-06-03 10:56:12

    2024年5月第四周LLM重要论文总结

    本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。
  • 06.02 09:52:31
    发表了文章 2024-06-02 09:52:31

    通过f-string编写简洁高效的Python格式化输出代码

    Python 3.6中引入的f-string是Python中最常用的特征之一,它可以让我们编写更干净、更高效和更易于维护的代码,我们今天就由浅入深来详细介绍使用它的一些技巧。
  • 06.01 12:31:48
    发表了文章 2024-06-01 12:31:48

    YOLOv10的改进、部署和微调训练总结

    YOLOv10在实时目标检测中提升性能与效率,通过无NMS训练解决延迟问题,采用一致的双任务和效率-精度驱动的模型设计。YOLOv10-S比RT-DETR-R18快1.8倍,YOLOv10-B比YOLOv9-C延迟减少46%。新方法包括一致性双标签分配,优化计算冗余和增强模型能力。实验结果显示YOLOv10在AP和延迟上均有显著改善。文章还提供了部署和微调YOLOv10的示例代码。

2024年05月

  • 05.31 10:23:55
    发表了文章 2024-05-31 10:23:55

    长序列中Transformers的高级注意力机制总结

    Transformers在处理长序列时面临注意力分散和噪音问题,随着序列增长,注意力得分被稀释,影响相关上下文表示。文章探讨了序列长度如何影响注意力机制,并提出了多种解决方案:局部敏感哈希减少计算需求,低秩注意力通过矩阵分解简化计算,分段注意力将输入分割处理,层次化注意力逐级应用注意力,递归记忆增强上下文保持,带有路由的注意力机制动态调整信息流,以及相对位置编码改进序列理解。这些方法旨在提高Transformer在长序列任务中的效率和性能。
  • 05.30 11:02:54
    发表了文章 2024-05-30 11:02:54

    通过强化学习策略进行特征选择

    本文探讨了使用强化学习策略进行特征选择以提升机器学习模型性能。强调在高维数据集中,有效选择特征至关重要。文章介绍了马尔可夫决策过程在强化学习中的应用,并提出了一种新的特征选择方法。通过定义状态(特征子集)、动作(添加特征)、奖励(如准确性提升),建立了一个RL模型。此外,还介绍了Python库FSRLearning,用于实现这一方法。文中展示了如何使用该库,并通过与 sklearn 的 RFE 方法比较,证明了RL方法在选择模型特征方面的优越性。
  • 05.29 10:49:15
    发表了文章 2024-05-29 10:49:15

    微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

    研究表明,大型语言模型通过微调获取新知识可能引发幻觉,降低性能,尤其是当处理未知事实时。模型倾向于利用已有知识而非真正学习新知识。已知事实能提升性能,而未知事实则在后期微调中损害性能。使用“我不知道”来标记未知知识可减轻负面影响。最佳结果来自处理可能已知的事实,而非极其知名的事实。微调对模型知识的更新存在风险,需谨慎处理新旧知识的融合问题。建议使用RAG和策略来克服微调限制。[阅读完整论文以了解更多](https://avoid.overfit.cn/post/21daac41f99042be804b381a6a9700fb)。
  • 05.27 11:34:00
    发表了文章 2024-05-27 11:34:00

    SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增

    `Transformers`模型因其在多种任务上的优秀性能而广泛采用,但其内存需求和推理成本随词元数量指数增长。为解决这一问题,论文《Linearizing Large Language Models》提出`SUPRA`方法,将预训练的`Transformers`转换为递归神经网络(RNN),实现有效推理并降低训练成本至原来的5%。`SUPRA`通过将注意力机制线性化并用`GroupNorm`替代`softmax`,保持预训练模型的优势。经过微调,转换后的模型在标准语言理解和长上下文任务中保持高性能,展示了在长序列处理方面的潜力,但仍有改进空间。
  • 05.26 10:37:37
    发表了文章 2024-05-26 10:37:37

    2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能

    本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。
  • 发表了文章 2024-12-26

    SPAR:融合自对弈与树搜索的高性能指令优化框架

  • 发表了文章 2024-12-25

    TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%

  • 发表了文章 2024-12-24

    BERT的继任者ModernBERT:融合长序列处理、代码理解与高效计算的新一代双向编码器

  • 发表了文章 2024-12-23

    10个必备Python调试技巧:从pdb到单元测试的开发效率提升指南

  • 发表了文章 2024-12-22

    使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比

  • 发表了文章 2024-12-21

    LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

  • 发表了文章 2024-12-20

    时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用

  • 发表了文章 2024-12-19

    基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法

  • 发表了文章 2024-12-18

    基于Copula分布的合成数据采样:保持多维数据依赖结构的高效建模方法

  • 发表了文章 2024-12-17

    数据分布检验利器:通过Q-Q图进行可视化分布诊断、异常检测与预处理优化

  • 发表了文章 2024-12-16

    基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展

  • 发表了文章 2024-12-15

    Differential Transformer: 通过差分注意力机制提升大语言模型性能

  • 发表了文章 2024-12-14

    使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例

  • 发表了文章 2024-12-13

    Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析

  • 发表了文章 2024-12-12

    使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南

  • 发表了文章 2024-12-11

    时间序列预测的不确定性区间估计:基于EnbPI的方法与应用研究

  • 发表了文章 2024-12-10

    基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法

  • 发表了文章 2024-12-09

    Beta分布与汤普森采样:智能决策系统概率采样的理论基础

  • 发表了文章 2024-12-08

    从方向导数到梯度:深度学习中的关键数学概念详解

  • 发表了文章 2024-12-07

    ORCA:基于持续批处理的LLM推理性能优化技术详解

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息