Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区520

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1013篇文章
109条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年03月

  • 03.15 12:11:38
    发表了文章 2024-03-15 12:11:38

    LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA

    LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。
  • 03.14 11:32:58
    发表了文章 2024-03-14 11:32:58

    MADQN:多代理合作强化学习

    处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系可以是合作的,也可以是对抗,或者两者的混合。多代理的强化学习引入了更多的复杂性,每个代理的状态不仅包括对自身的观察,还包括对其他代理位置及其活动的观察。
  • 03.13 10:42:51
    发表了文章 2024-03-13 10:42:51

    2024年3月最新的深度学习论文推荐

    现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。
  • 03.12 10:09:42
    发表了文章 2024-03-12 10:09:42

    傅里叶变换算法和Python代码实现

    傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。
  • 03.11 11:05:20
    发表了文章 2024-03-11 11:05:20

    从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡

    通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。
  • 03.10 10:26:42
    发表了文章 2024-03-10 10:26:42

    Nomic Embed:能够复现的SOTA开源嵌入模型

    Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。
  • 03.09 09:44:51
    发表了文章 2024-03-09 09:44:51

    使用Tokeniser估算GPT和LLM服务的查询成本

    将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。
  • 03.08 10:54:21
    发表了文章 2024-03-08 10:54:21

    StarCoder 2:GitHub Copilot本地开源LLM替代方案

    GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。
  • 03.07 09:43:49
    发表了文章 2024-03-07 09:43:49

    LLM 加速技巧:Muti Query Attention

    MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。
  • 03.06 10:58:06
    发表了文章 2024-03-06 10:58:06

    RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

    Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local attention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffin在处理比训练时更长的序列时表现出色。这两种模型在硬件效率方面与Transformer相当,但在推理过程中具有更低的延迟和更高的吞吐量。Griffin的规模已扩展到了140亿个(14B)参数。
  • 03.05 10:26:42
    发表了文章 2024-03-05 10:26:42

    使用纹理对比度检测检测AI生成的图像

    在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像
  • 03.04 10:40:03
    发表了文章 2024-03-04 10:40:03

    Vision Transformers的注意力层概念解释和代码实现

    2017年推出《Attention is All You Need》以来,transformers 已经成为自然语言处理(NLP)的最新技术。2021年,《An Image is Worth 16x16 Words》,成功地将transformers 用于计算机视觉任务。从那时起,许多基于transformers的计算机视觉体系结构被提出。
  • 03.03 10:06:22
    发表了文章 2024-03-03 10:06:22

    使用TensorRT-LLM进行生产环境的部署指南

    TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
  • 03.02 13:55:12
    发表了文章 2024-03-02 13:55:12

    Pytorch中张量的高级选择操作

    在某些情况下,我们需要用Pytorch做一些高级的索引/选择,所以在这篇文章中,我们将介绍这类任务的三种最常见的方法:torch.index_select, torch.gather and torch.take
  • 03.01 10:24:17
    发表了文章 2024-03-01 10:24:17

    可视化FAISS矢量空间并调整RAG参数提高结果精度

    随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内部,以确保合规性、商业秘密或隐私。当查询这些文件时,会使得LLM产生幻觉,产生不相关、捏造或不一致的内容。

2024年02月

  • 02.29 10:52:20
    发表了文章 2024-02-29 10:52:20

    谷歌Gemma介绍、微调、量化和推理

    谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。
  • 02.28 10:44:54
    发表了文章 2024-02-28 10:44:54

    2024年2月深度学习的论文推荐

    我们这篇文章将推荐2月份发布的10篇深度学习的论文
  • 02.27 09:38:44
    发表了文章 2024-02-27 09:38:44

    PyTimeTK: 一个简单有效的时间序列分析库

    时间序列分析是数据科学的重要组成部分,特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点,以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法,我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ,它可以帮我们简化时间序列分析的很多步骤。
  • 02.26 10:14:29
    发表了文章 2024-02-26 10:14:29

    选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    OpenAI最近发布了他们的新一代嵌入模型*embedding v3*,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
  • 02.25 20:16:45
    发表了文章 2024-02-25 20:16:45

    PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化

    这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法
  • 02.24 10:25:39
    发表了文章 2024-02-24 10:25:39

    20个改善编码的Python异常处理技巧,让你的代码更高效

    异常处理是写好代码的一个重要的方面,虽然许多开发人员都熟悉基本的try-except块,但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧,这些技巧可以让你熟练的掌握Python的异常处理。
  • 02.23 10:51:48
    发表了文章 2024-02-23 10:51:48

    Mamba详细介绍和RNN、Transformer的架构可视化对比

    Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
  • 02.22 11:21:24
    发表了文章 2024-02-22 11:21:24

    LiRank: LinkedIn在2月新发布的大规模在线排名模型

    LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。
  • 02.21 12:25:20
    发表了文章 2024-02-21 12:25:20

    深度学习在时间序列预测的总结和未来方向分析

    2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进,还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT), 也出现了直接应用于时间序列的可能性的LLM,以及新形式的时间序列正则化/规范化技术(san)。
  • 02.20 12:05:39
    发表了文章 2024-02-20 12:05:39

    视频生成领域的发展概述:从多级扩散到LLM

    2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
  • 02.19 11:32:45
    发表了文章 2024-02-19 11:32:45

    4张图片就可以微调扩散模型

    稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。
  • 02.18 10:45:44
    发表了文章 2024-02-18 10:45:44

    自然语言生成任务中的5种采样方法介绍和Pytorch代码实现

    在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。
  • 02.17 10:12:49
    发表了文章 2024-02-17 10:12:49

    机器学习中7种常用的线性降维技术总结

    上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。
  • 02.16 13:16:56
    发表了文章 2024-02-16 13:16:56

    机器学习中的10种非线性降维技术对比总结

    降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。
  • 02.15 09:44:55
    发表了文章 2024-02-15 09:44:55

    Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

    2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
  • 02.14 10:13:05
    发表了文章 2024-02-14 10:13:05

    使用MICE进行缺失值的填充处理

    在我们进行机器学习时,处理缺失数据是非常重要的,因为缺失数据可能会导致分析结果不准确,严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤,有助于确保分析结果的可信度和可解释性。
  • 02.13 11:57:38
    发表了文章 2024-02-13 11:57:38

    使用LORA微调RoBERTa

    模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。
  • 02.12 10:52:51
    发表了文章 2024-02-12 10:52:51

    使用PyOD进行异常值检测

    异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程。在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例
  • 02.11 10:21:45
    发表了文章 2024-02-11 10:21:45

    使用UMAP降维可视化RAG嵌入

    大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。
  • 02.10 14:05:43
    发表了文章 2024-02-10 14:05:43

    2024年应该关注的十大人工智能创新

    人工智能(AI)不再只是一个流行词,它已成为我们日常生活的重要组成部分。人工智能在去年深入地融入我们社会的各个方面,改变我们的生活方式、工作方式以及与技术互动的方式。
  • 02.09 10:57:09
    发表了文章 2024-02-09 10:57:09

    从模型到前端,你应该知道的LLM生态系统指南

    LLM在在2023年发展的风生水起,一个围绕LLM的庞大生态系统正在形成,本文通过介绍这个生态系统的核心组成部分,来详细整理LLM的发展。
  • 02.08 10:43:14
    发表了文章 2024-02-08 10:43:14

    Python进行AI声音克隆的端到端指南

    人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。
  • 02.07 10:29:21
    发表了文章 2024-02-07 10:29:21

    MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

    视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。
  • 02.06 10:17:46
    发表了文章 2024-02-06 10:17:46

    NLP中的嵌入和距离度量

    本文将深入研究嵌入、矢量数据库和各种距离度量的概念,并提供示例和演示代码。
  • 02.05 10:44:41
    发表了文章 2024-02-05 10:44:41

    PyTorch的10个基本张量操作

    PyTorch是一个基于python的科学计算包。它的灵活性允许轻松集成新的数据类型和算法,并且框架也是高效和可扩展的,下面我们将介绍一些Pytorch的基本张量操作。
  • 02.03 10:30:37
    发表了文章 2024-02-03 10:30:37

    12个RAG常见痛点及解决方案

    这里使用“痛点”而不是“失败点”,主要是因为我们总结的问题都有相应的建议解决方案。
  • 02.02 10:48:25
    发表了文章 2024-02-02 10:48:25

    10个Pandas的高级技巧

    Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年,但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。
  • 02.01 09:59:09
    发表了文章 2024-02-01 09:59:09

    UniMS-RAG:用于个性化对话的统一多源RAG框架

    RAG领域已经取得了相当大的发展,这篇论文的是如何分解RAG过程,加入多文件检索、记忆和个人信息等定制化的元素。

2024年01月

  • 01.31 10:36:59
    发表了文章 2024-01-31 10:36:59

    Langchain中改进RAG能力的3种常用的扩展查询方法

    有多种方法可以提高检索增强生成(RAG)的能力,其中一种方法称为查询扩展。我们这里主要介绍在Langchain中常用的3种方法
  • 01.30 09:50:14
    发表了文章 2024-01-30 09:50:14

    论文推荐:大语言模型在金融领域的应用调查

    这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看
  • 01.29 10:12:16
    发表了文章 2024-01-29 10:12:16

    使用核模型高斯过程(KMGPs)进行数据建模

    核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。
  • 01.28 10:40:15
    发表了文章 2024-01-28 10:40:15

    2024年1月的论文推荐

    又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
  • 01.27 10:50:04
    发表了文章 2024-01-27 10:50:04

    使用Transformer 模型进行时间序列预测的Pytorch代码示例

    时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。
  • 01.26 09:46:11
    发表了文章 2024-01-26 09:46:11

    使用mergekit 合并大型语言模型

    模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量,还可以获得额外的好处。
  • 01.25 10:44:01
    发表了文章 2024-01-25 10:44:01

    Mistral AI vs. Meta:顶级开源LLM比较

    为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
  • 发表了文章 2024-05-11

    图机器学习入门:基本概念介绍

  • 发表了文章 2024-05-10

    使用PyTorch实现L1, L2和Elastic Net正则化

  • 发表了文章 2024-05-09

    论文推荐:用多词元预测法提高模型效率与速度

  • 发表了文章 2024-05-08

    号称能打败MLP的KAN到底行不行?数学核心原理全面解析

  • 发表了文章 2024-05-07

    循环编码:时间序列中周期性特征的一种常用编码方式

  • 发表了文章 2024-05-06

    LSTM时间序列预测中的一个常见错误以及如何修正

  • 发表了文章 2024-05-05

    LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

  • 发表了文章 2024-05-04

    BiTCN:基于卷积网络的多元时间序列预测

  • 发表了文章 2024-05-03

    整合文本和知识图谱嵌入提升RAG的性能

  • 发表了文章 2024-05-02

    Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

  • 发表了文章 2024-05-01

    10个使用NumPy就可以进行的图像处理步骤

  • 发表了文章 2024-04-30

    贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率

  • 发表了文章 2024-04-29

    如何准确的估计llm推理和微调的内存消耗

  • 发表了文章 2024-04-28

    通过学习曲线识别过拟合和欠拟合

  • 发表了文章 2024-04-27

    2024年4月计算机视觉论文推荐

  • 发表了文章 2024-04-26

    常用的时间序列分析方法总结和代码示例

  • 发表了文章 2024-04-25

    开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate

  • 发表了文章 2024-04-24

    微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行

  • 发表了文章 2024-04-23

    Barnes-Hut t-SNE:大规模数据的高效降维算法

  • 发表了文章 2024-04-22

    5种搭建LLM服务的方法和代码示例

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息