Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区718

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1193篇文章
178条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年10月

  • 10.04 13:59:55
    发表了文章 2024-10-04 13:59:55

    扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法

    DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
  • 10.03 11:51:29
    发表了文章 2024-10-03 11:51:29

    SCoRe: 通过强化学习教导大语言模型进行自我纠错

    谷歌研究人员提出了一种名为自我纠错强化学习(SCoRe)的新方法,旨在使大型语言模型(LLMs)能够在无需外部反馈的情况下即时纠正自己的错误。SCoRe通过在线多轮强化学习训练模型,解决了传统自我纠错方法的局限性。实验结果显示,SCoRe在数学问题求解和代码生成任务上显著提升了模型的自我纠错能力,相较于基准模型和其他方法表现出色。此外,SCoRe还可与其他推理优化技术结合,进一步提升模型性能。尽管存在迭代次数限制和计算成本等局限性,SCoRe为未来研究提供了新的方向,有望推动AI系统的自主性和适应性发展。
  • 10.02 19:58:27
    发表了文章 2024-10-02 19:58:27

    VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测

    构建预训练时间序列模型的主要挑战在于获取高质量、多样化的时间序列数据。目前有两种方法:迁移学习LLM(如GPT-4或Llama)和从零训练。尽管迁移学习可行,但效果有限;从零训练则依赖大量数据,如MOIRAI、TimesFM和TTM等模型所示。为解决这一难题,研究人员提出利用图像数据进行时间序列预测。
  • 10.01 10:20:30
    发表了文章 2024-10-01 10:20:30

    闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨

    本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。

2024年09月

  • 09.30 10:01:06
    发表了文章 2024-09-30 10:01:06

    Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架

    在人工智能迅速发展的背景下,有效利用大型语言模型(LLMs)成为重要议题。9月发布的这篇论文提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,旨在帮助非AI专家更好地使用LLMs。LangGPT通过模块化设计提高提示的泛化能力和可重用性,Minstrel则通过多代理协作自动生成高质量提示。实验结果显示,这两种方法显著提升了LLMs的性能,特别是在大规模模型上效果显著。
  • 09.29 09:54:39
    发表了文章 2024-09-29 09:54:39

    在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型

    在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
  • 09.28 09:49:41
    发表了文章 2024-09-28 09:49:41

    TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

    TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。
  • 09.27 10:15:59
    发表了文章 2024-09-27 10:15:59

    8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征

    特征工程是机器学习流程中的关键步骤,通过将原始数据转换为更具意义的特征,增强模型对数据关系的理解能力。本文重点介绍处理数值变量的高级特征工程技术,包括归一化、多项式特征、FunctionTransformer、KBinsDiscretizer、对数变换、PowerTransformer、QuantileTransformer和PCA,旨在提升模型性能。这些技术能够揭示数据中的潜在模式、优化变量表示,并应对数据分布和内在特性带来的挑战,从而提高模型的稳健性和泛化能力。每种技术都有其独特优势,适用于不同类型的数据和问题。通过实验和验证选择最适合的变换方法至关重要。
  • 09.26 10:06:08
    发表了文章 2024-09-26 10:06:08

    MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量

    MAGICORE是一种多代理迭代框架,旨在改进大语言模型(LLM)的推理能力。该框架通过将问题分类为简单或困难,并分别为其应用粗粒度聚合或细粒度精炼,有效避免了过度精炼、错误定位及精炼不足等问题。MAGICORE包含Solver、Reviewer和Refiner三个角色,结合结果和过程奖励模型,实现有针对性的反馈和迭代精炼。实验结果显示,MAGICORE在多个数据集和模型上显著优于现有的聚合和精炼方法,提升了推理准确性和样本效率。
  • 09.25 09:52:32
    发表了文章 2024-09-25 09:52:32

    PyTorch自定义学习率调度器实现指南

    本文将详细介绍如何通过扩展PyTorch的 ``` LRScheduler ``` 类来实现一个具有预热阶段的余弦衰减调度器。我们将分五个关键步骤来完成这个过程。
  • 09.24 09:32:06
    发表了文章 2024-09-24 09:32:06

    AdEMAMix: 一种创新的神经网络优化器

    9月发布的一篇论文中,Pagliardini等人提出了AdEMAMix,一种新的优化算法,旨在克服Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。通过结合两种不同衰减率的指数移动平均(EMA),AdEMAMix能够更有效地利用历史梯度信息。实验结果显示,AdEMAMix在语言建模和视觉任务中均显著优于AdamW,不仅能加速模型收敛,还能提高学习稳定性。尽管引入了额外计算步骤,但开销极小,展示了在大规模神经网络训练中的潜力。论文详细探讨了其核心思想、实验设置及未来研究方向。
  • 09.23 09:54:06
    发表了文章 2024-09-23 09:54:06

    PyTorch 模型调试与故障排除指南

    在深度学习领域,PyTorch 成为开发和训练神经网络的主要框架之一。本文为 PyTorch 开发者提供全面的调试指南,涵盖从基础概念到高级技术的内容。目标读者包括初学者、中级开发者和高级工程师。本文探讨常见问题及解决方案,帮助读者理解 PyTorch 的核心概念、掌握调试策略、识别性能瓶颈,并通过实际案例获得实践经验。无论是在构建简单神经网络还是复杂模型,本文都将提供宝贵的洞察和实用技巧,帮助开发者更高效地开发和优化 PyTorch 模型。
  • 09.22 12:27:45
    发表了文章 2024-09-22 12:27:45

    使用GPU 加速 Polars:高效解决大规模数据问题

    Polars 最新开发了 GPU 加速执行引擎,支持对超过 100GB 的数据进行交互式操作。本文详细介绍了 Polars 中 DataFrame(DF)的概念及其操作,包括筛选、数学运算和聚合函数等。Polars 提供了“急切”和“惰性”两种执行模式,后者通过延迟计算实现性能优化。启用 GPU 加速后,只需指定 GPU 作为执行引擎即可大幅提升处理速度。实验表明,GPU 加速比 CPU 上的懒惰执行快 74.78%,比急切执行快 77.38%。Polars 的查询优化器智能管理 CPU 和 GPU 之间的数据传输,简化了 GPU 数据处理。这一技术为大规模数据集处理带来了显著的性能提升。
  • 09.21 09:49:08
    发表了文章 2024-09-21 09:49:08

    GraphRAG 与 RAG 的比较分析

    Graph RAG 技术通过引入图结构化的知识表示和处理方法,显著增强了传统 RAG 系统的能力。它不仅提高了信息检索的准确性和完整性,还为复杂查询和多步推理提供了更强大的支持。
  • 09.20 16:41:53
    发表了文章 2024-09-20 16:41:53

    让模型评估模型:构建双代理RAG评估系统的步骤解析

    在当前大语言模型(LLM)应用开发中,评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG(检索增强生成)评估系统,使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程,并展示了基于四种提示工程技术(ReAct、思维链、自一致性和角色提示)的不同结果。实验结果显示,ReAct和思维链技术表现相似,自一致性技术则呈现相反结果,角色提示技术最为不稳定。研究强调了多角度评估的重要性,并提供了系统实现的详细代码。
  • 09.19 09:59:11
    发表了文章 2024-09-19 09:59:11

    机器学习模型中特征贡献度分析:预测贡献与错误贡献

    本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
  • 09.18 09:55:35
    发表了文章 2024-09-18 09:55:35

    CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer

    这是8月份再arxiv上发布的新论文,我们下面一起来介绍这篇论文的重要贡献
  • 09.17 16:54:40
    发表了文章 2024-09-17 16:54:40

    概率分布深度解析:PMF、PDF和CDF的技术指南

    本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。
  • 09.16 09:42:30
    发表了文章 2024-09-16 09:42:30

    数据稀缺条件下的时间序列微分:符号回归(Symbolic Regression)方法介绍与Python示例

    有多种方法可以处理时间序列数据中的噪声。本文将介绍一种在我们的研究项目中表现良好的方法,特别适用于时间序列概况中数据点较少的情况。
  • 09.15 17:55:06
    发表了文章 2024-09-15 17:55:06

    利用未标记数据的半监督学习在模型训练中的效果评估

    本文将介绍三种适用于不同类型数据和任务的半监督学习方法。我们还将在一个实际数据集上评估这些方法的性能,并与仅使用标记数据的基准进行比较。
  • 09.14 09:28:10
    发表了文章 2024-09-14 09:28:10

    MemLong: 基于记忆增强检索的长文本LLM生成方法

    本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。
  • 09.13 09:41:20
    发表了文章 2024-09-13 09:41:20

    KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验

    Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
  • 09.12 12:13:56
    发表了文章 2024-09-12 12:13:56

    使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性

    在分类问题中,调整决策的概率阈值虽常被忽视,却是提升模型质量的有效步骤。本文深入探讨了阈值调整机制,尤其关注多类分类问题,并介绍了一个名为 ClassificationThresholdTuner 的开源工具,该工具自动化阈值调整和解释过程。通过可视化功能,数据科学家可以更好地理解最优阈值及其影响,尤其是在平衡假阳性和假阴性时。此外,工具支持多类分类,解决了传统方法中的不足。
  • 09.11 10:13:40
    发表了文章 2024-09-11 10:13:40

    RAG系统的7个检索指标:信息检索任务准确性评估指南

    大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
  • 09.10 10:50:24
    发表了文章 2024-09-10 10:50:24

    Monte Carlo方法解决强化学习问题

    本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。
  • 09.09 10:33:13
    发表了文章 2024-09-09 10:33:13

    Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系

    通过探索大语言模型(LLM)架构之间的潜在联系,我们可能开辟新途径,促进不同模型间的知识交流并提高整体效率。尽管Transformer仍是主流,但Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)展现出巨大潜力。近期研究揭示了Transformer、RNN、SSM和矩阵混合器之间的深层联系,为跨架构的思想迁移提供了可能。本文深入探讨了这些架构间的相似性和差异,包括Transformer与RNN的关系、状态空间模型在自注意力机制中的隐含作用以及Mamba在特定条件下的重写方式。
  • 09.08 09:15:28
    发表了文章 2024-09-08 09:15:28

    时间序列结构变化分析:Python实现时间序列变化点检测

    在时间序列分析和预测中,准确检测结构变化至关重要。新出现的分布模式往往会导致历史数据失去代表性,进而影响基于这些数据训练的模型的有效性。
  • 09.07 10:45:29
    发表了文章 2024-09-07 10:45:29

    图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

    本文详细介绍了如何利用NetworkX库从图结构中提取重要特征。首先,通过定义辅助函数设置了图的可视化选项,并以Zachary网络数据集为例进行了可视化展示。接着,文章深入探讨了三类图特征:基于节点的特征(如节点度、中心性等)、基于边的特征(如最短路径、邻域重叠等)以及基于图的特征(如Graphlets、Weisfeiler-Leman特征等)。通过这些特征的提取与分析,可以全面理解网络结构,识别关键节点,分析信息流动模式,并发现潜在的隐藏模式。本文不仅展示了如何应用这些特征来揭示社交网络中的角色和联系,还强调了其在交通网络分析和生物系统研究等领域的广泛应用潜力。
  • 09.06 09:59:28
    发表了文章 2024-09-06 09:59:28

    Optuna发布 4.0 重大更新:多目标TPESampler自动化超参数优化速度提升显著

    Optuna,广受欢迎的超参数优化框架,近日发布了其第四个主要版本。自2018年问世以来,Optuna迅速成为机器学习领域的关键工具,目前拥有10,000+ GitHub星标、每月300万+下载量、16,000+代码库使用、5,000+论文引用及18,000+ Kaggle使用。Optuna 4.0引入了OptunaHub平台,支持功能共享;正式推出Artifact Store管理生成文件;稳定支持NFS的JournalStorage实现分布式优化;显著加速多目标TPESampler,并引入新Terminator算法。
  • 09.05 10:29:57
    发表了文章 2024-09-05 10:29:57

    优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略

    本文详细解析了大语言模型(LLM)的采样策略及其关键参数,如温度和top_p。LLM基于输入提示生成下一个标记的概率分布,通过采样策略选择标记并附回输入,形成循环。文章介绍了对数概率(logprobs)、贪婪解码、温度参数调整、top-k与top-p采样等概念,并探讨了min-p采样这一新方法。通过调整这些参数,可以优化LLM输出的质量和创造性。最后,文章提供了实验性尝试的建议,帮助读者在特定任务中找到最佳参数配置。本文使用VLLM作为推理引擎,展示了Phi-3.5-mini-instruct模型的应用实例。
  • 09.04 11:37:12
    发表了文章 2024-09-04 11:37:12

    使用PyTorch从零构建Llama 3

    本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。
  • 09.03 10:02:08
    发表了文章 2024-09-03 10:02:08

    一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析

    蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
  • 09.02 10:03:03
    发表了文章 2024-09-02 10:03:03

    CNN中的注意力机制综合指南:从理论到Pytorch代码实现

    注意力机制已成为深度学习模型的关键组件,尤其在卷积神经网络(CNN)中发挥了重要作用。通过使模型关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等任务中的表现。本文将详细介绍CNN中的注意力机制,包括其基本概念、不同类型(如通道注意力、空间注意力和混合注意力)以及实际实现方法。此外,还将探讨注意力机制在多个计算机视觉任务中的应用效果及其面临的挑战。无论是图像分类还是医学图像分析,注意力机制都能显著提升模型性能,并在不断发展的深度学习领域中扮演重要角色。
  • 09.01 09:44:43
    发表了文章 2024-09-01 09:44:43

    压缩大型语言模型(LLMs):缩小10倍、性能保持不变

    尽管大规模语言模型(LLMs)在多种应用场景中表现出色,但其庞大的规模也带来了实际部署难题。本文探讨了通过模型压缩技术解决这些问题的方法,介绍了量化、剪枝和知识蒸馏三种主要压缩技术,并通过具体Python代码示例展示了如何将一个100M参数的文本分类模型压缩至52.8M参数,再通过4位量化进一步减小至原来的1/7,同时保持甚至提升性能。示例代码展示了从数据预处理、模型训练到评估的完整流程,证明了压缩技术的有效性。

2024年08月

  • 08.31 10:13:55
    发表了文章 2024-08-31 10:13:55

    6种有效的时间序列数据特征工程技术(使用Python)

    在本文中,我们将探讨使用日期时间列提取有用信息的各种特征工程技术。
  • 08.30 09:14:44
    发表了文章 2024-08-30 09:14:44

    PyTorch数据处理:torch.utils.data模块的7个核心函数详解

    在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数据处理工具
  • 08.28 10:41:51
    发表了文章 2024-08-28 10:41:51

    使用 Python TorchRL 进行多代理强化学习

    本文详细介绍了如何使用TorchRL库解决多代理强化学习(MARL)问题,重点讨论了在多代理环境中应用近端策略优化(PPO)。通过使用VMAS模拟器,该文展示了如何在GPU上并行训练多机器人系统,使其在避免碰撞的同时到达目标。文章涵盖了依赖项安装、PPO原理、策略与评论家网络设计、数据收集及训练循环,并强调了TorchRL在简化开发流程、提升计算效率方面的优势。无论是集中式还是分布式评论家配置,TorchRL均能有效支持复杂的MARL研究与实践。
  • 08.27 10:54:10
    发表了文章 2024-08-27 10:54:10

    深入理解GPU内存分配:机器学习工程师的实用指南与实验

    给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?
  • 08.26 20:47:22
    发表了文章 2024-08-26 20:47:22

    时间序列特征提取:从理论到Python代码实践

    时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。
  • 08.25 16:32:17
    发表了文章 2024-08-25 16:32:17

    高效的时间序列可视化:减少认知负荷获得更清晰的洞察

    本文探讨了时间序列数据可视化中的挑战,特别是在处理多个数据集时。通过减少认知负荷,即处理信息所需的脑力,良好的可视化设计能帮助观察者更快理解数据趋势。文章以疫苗接种数据为例,展示了不同类型的图表(如无连线散点图、带连线散点图、纯折线图以及带有填充区域的折线图)在展示单一时间序列时的效果,并对比了多种多时间序列可视化方法,包括无连线散点图、带连线的折线图以及直接标注的图表,以突出最佳实践。通过这些例子,文章强调了减少认知负荷的重要性,它能帮助观察者快速理解趋势、避免误解并维持较高的参与度。最终目的是通过清晰且直观的设计来提升数据理解效率,支持更优的决策制定。
  • 08.24 19:29:45
    发表了文章 2024-08-24 19:29:45

    XGBoost中正则化的9个超参数

    本文探讨了XGBoost中多种正则化方法及其重要性,旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值,并指出正则化对于缓解过拟合问题的关键作用,具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后,文章详细介绍了四种正则化方法:减少估计器数量(如使用`early_stopping_rounds`)、使用更简单的树(如调整`gamma`和`max_depth`)、采样(如设置`subsample`和`colsample`)以及收缩(如调节`learning_rate`, `lambda`和`alpha`)。
  • 08.23 10:48:14
    发表了文章 2024-08-23 10:48:14

    基于重要性加权的LLM自我改进:考虑分布偏移的新框架

    本文提出一种新的大型语言模型(LLM)自我改进框架——基于重要性加权的自我改进(IWSI),旨在优化自动生成数据的质量。通过引入DS权重指标衡量数据的分布偏移程度(DSE),该方法不仅能确保答案正确性,还能过滤掉那些虽正确但分布上偏离较大的样本,以提升自我训练的效果。IWSI使用一个小的有效数据集来估算每个自生成样本的DS权重,并据此进行筛选。实验结果显示,相比于仅依赖答案正确性的传统方法,IWSI能更有效地提高LLM在多种任务上的表现。特别是在数学问题解答任务上,相较于基线方法,IWSI带来了显著的性能提升,证实了过滤高DSE样本的重要性及该方法的有效性。
  • 08.22 11:38:58
    发表了文章 2024-08-22 11:38:58

    基于距离度量学习的异常检测:一种通过相关距离度量的异常检测方法

    异常是数据集中显著偏离多数观察值的记录。例如,在由多个紧密簇构成的数据集中,远离这些簇的孤立点常被视为异常。检测这类异常的传统方法依赖于距离度量,如欧几里得距离或Gower距离,但这些方法可能无法妥善处理特征间的复杂关系或权重问题。为此,本文介绍了一种基于距离度量学习的方法,特别是利用随机森林来评估记录间的相似性。此方法通过构建能够区分真实数据与合成数据的随机森林模型,进而依据记录在树结构中的路径一致性来衡量其相似度。异常记录往往会在多数树中到达较少记录所在的叶节点。
  • 08.21 10:07:57
    发表了文章 2024-08-21 10:07:57

    泊松自助法(Poisson Bootstrap Sampling):大型数据集上的自助抽样

    自助抽样通过重采样评估统计量的稳定性和不确定性,无需强假设数据分布,能反映数据变异性并适用于小样本或复杂模型。泊松自助抽样作为一种改进,利用泊松分布生成重采样,尤其适合大数据和流数据场景,减少了数据遍历次数,可在分布式系统中高效并行处理。相较于经典自助抽样,泊松自助抽样能够保留数据多样性,更适合不平衡数据集,并在某些情况下提供更精确的统计估计。
  • 08.20 11:46:49
    发表了文章 2024-08-20 11:46:49

    深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例

    本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
  • 08.19 10:26:22
    发表了文章 2024-08-19 10:26:22

    三元组损失Triplet loss 详解

    在这篇文章中,我们将以简单的技术术语解析三元组损失及其变体批量三元组损失,并提供一个相关的例子来帮助你理解这些概念。
  • 08.17 10:12:21
    发表了文章 2024-08-17 10:12:21

    将VAE用于时间序列:生成时间序列的合成数据

    变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上,也可以创建时间序列数据。标准VAE可以被改编以捕捉时间序列数据的周期性和顺序模式,然后用于生成合成数据。本文将使用**一维卷积层**、**策略性的步幅选择**、**灵活的时间维度**和**季节性依赖的先验**来模拟温度数据。
  • 08.16 10:07:20
    发表了文章 2024-08-16 10:07:20

    LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

    本文介绍了一种名为AgentWrite的方法,旨在克服大型语言模型(LLM)生成长文本时的局限。通过将任务分解为子任务,AgentWrite使LLM能生成超过20,000词的连贯文本。研究揭示了监督微调数据中的输出长度限制是导致LLM生成长度受限的主要原因。通过构建LongWriter-6k数据集并对模型进行再训练,成功扩展了输出长度至10,000词以上,且未牺牲输出质量。
  • 08.15 10:17:28
    发表了文章 2024-08-15 10:17:28

    60行代码就可以训练/微调 Segment Anything 2 (SAM 2)

    本文演示了如何在仅60行代码内(不包括标注和导入)对SAM2进行微调。
  • 08.14 11:01:37
    发表了文章 2024-08-14 11:01:37

    音频去噪:使用Python和FFT增强音质

    声音去噪目标是改善聆听体验以及音频分析和处理的准确性。过滤掉噪音对于高保真音频来说非常重要,不仅是为了聆听,也是为了创建某些机器学习任务的数据集。
  • 发表了文章 2024-11-24

    IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

  • 发表了文章 2024-11-23

    图神经网络在欺诈检测与蛋白质功能预测中的应用概述

  • 发表了文章 2024-11-22

    优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本

  • 发表了文章 2024-11-21

    LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

  • 发表了文章 2024-11-20

    解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配

  • 发表了文章 2024-11-19

    使用Pytorch构建视觉语言模型(VLM)

  • 发表了文章 2024-11-18

    使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

  • 发表了文章 2024-11-17

    25 个值得关注的检索增强生成 (RAG) 模型和框架

  • 发表了文章 2024-11-16

    利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

  • 发表了文章 2024-11-15

    告别Print,使用IceCream进行高效的Python调试

  • 发表了文章 2024-11-14

    为什么卷积现在不火了:CNN研究热度降温的深层原因分析

  • 发表了文章 2024-11-13

    SMoA: 基于稀疏混合架构的大语言模型协同优化框架

  • 发表了文章 2024-11-12

    TSMamba:基于Mamba架构的高效时间序列预测基础模型

  • 发表了文章 2024-11-11

    基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架

  • 发表了文章 2024-11-10

    深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析

  • 发表了文章 2024-11-09

    通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

  • 发表了文章 2024-11-08

    贝叶斯统计中常见先验分布选择方法总结

  • 发表了文章 2024-11-07

    Tokenformer:基于参数标记化的高效可扩展Transformer架构

  • 发表了文章 2024-11-06

    基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践

  • 发表了文章 2024-11-05

    基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息