Deephub_社区达人页

个人头像照片
Deephub
已加入开发者社区1087

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
一代宗师
一代宗师

成就

已发布1556篇文章
357条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

公众号 Deephub-IMBA

暂无精选文章
暂无更多信息

2024年05月

  • 03.08 10:54:21
    发表了文章 2024-03-08 10:54:21

    StarCoder 2:GitHub Copilot本地开源LLM替代方案

    GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。
  • 03.07 09:43:49
    发表了文章 2024-03-07 09:43:49

    LLM 加速技巧:Muti Query Attention

    MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。
  • 03.06 10:58:06
    发表了文章 2024-03-06 10:58:06

    RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

    Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local attention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffin在处理比训练时更长的序列时表现出色。这两种模型在硬件效率方面与Transformer相当,但在推理过程中具有更低的延迟和更高的吞吐量。Griffin的规模已扩展到了140亿个(14B)参数。
  • 03.05 10:26:42
    发表了文章 2024-03-05 10:26:42

    使用纹理对比度检测检测AI生成的图像

    在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像
  • 03.04 10:40:03
    发表了文章 2024-03-04 10:40:03

    Vision Transformers的注意力层概念解释和代码实现

    2017年推出《Attention is All You Need》以来,transformers 已经成为自然语言处理(NLP)的最新技术。2021年,《An Image is Worth 16x16 Words》,成功地将transformers 用于计算机视觉任务。从那时起,许多基于transformers的计算机视觉体系结构被提出。
  • 03.03 10:06:22
    发表了文章 2024-03-03 10:06:22

    使用TensorRT-LLM进行生产环境的部署指南

    TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
  • 03.02 13:55:12
    发表了文章 2024-03-02 13:55:12

    Pytorch中张量的高级选择操作

    在某些情况下,我们需要用Pytorch做一些高级的索引/选择,所以在这篇文章中,我们将介绍这类任务的三种最常见的方法:torch.index_select, torch.gather and torch.take
  • 03.01 10:24:17
    发表了文章 2024-03-01 10:24:17

    可视化FAISS矢量空间并调整RAG参数提高结果精度

    随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内部,以确保合规性、商业秘密或隐私。当查询这些文件时,会使得LLM产生幻觉,产生不相关、捏造或不一致的内容。
  • 02.29 10:52:20
    发表了文章 2024-02-29 10:52:20

    谷歌Gemma介绍、微调、量化和推理

    谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。
  • 02.28 10:44:54
    发表了文章 2024-02-28 10:44:54

    2024年2月深度学习的论文推荐

    我们这篇文章将推荐2月份发布的10篇深度学习的论文
  • 02.27 09:38:44
    发表了文章 2024-02-27 09:38:44

    PyTimeTK: 一个简单有效的时间序列分析库

    时间序列分析是数据科学的重要组成部分,特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点,以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法,我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ,它可以帮我们简化时间序列分析的很多步骤。
  • 02.26 10:14:29
    发表了文章 2024-02-26 10:14:29

    选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    OpenAI最近发布了他们的新一代嵌入模型*embedding v3*,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
  • 02.25 20:16:45
    发表了文章 2024-02-25 20:16:45

    PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化

    这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法
  • 02.24 10:25:39
    发表了文章 2024-02-24 10:25:39

    20个改善编码的Python异常处理技巧,让你的代码更高效

    异常处理是写好代码的一个重要的方面,虽然许多开发人员都熟悉基本的try-except块,但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧,这些技巧可以让你熟练的掌握Python的异常处理。
  • 02.23 10:51:48
    发表了文章 2024-02-23 10:51:48

    Mamba详细介绍和RNN、Transformer的架构可视化对比

    Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
  • 02.22 11:21:24
    发表了文章 2024-02-22 11:21:24

    LiRank: LinkedIn在2月新发布的大规模在线排名模型

    LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。
  • 02.21 12:25:20
    发表了文章 2024-02-21 12:25:20

    深度学习在时间序列预测的总结和未来方向分析

    2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进,还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT), 也出现了直接应用于时间序列的可能性的LLM,以及新形式的时间序列正则化/规范化技术(san)。
  • 02.20 12:05:39
    发表了文章 2024-02-20 12:05:39

    视频生成领域的发展概述:从多级扩散到LLM

    2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
  • 02.19 11:32:45
    发表了文章 2024-02-19 11:32:45

    4张图片就可以微调扩散模型

    稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。
  • 02.18 10:45:44
    发表了文章 2024-02-18 10:45:44

    自然语言生成任务中的5种采样方法介绍和Pytorch代码实现

    在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。
  • 02.17 10:12:49
    发表了文章 2024-02-17 10:12:49

    机器学习中7种常用的线性降维技术总结

    上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。
  • 02.16 13:16:56
    发表了文章 2024-02-16 13:16:56

    机器学习中的10种非线性降维技术对比总结

    降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。
  • 02.15 09:44:55
    发表了文章 2024-02-15 09:44:55

    Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

    2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
  • 02.14 10:13:05
    发表了文章 2024-02-14 10:13:05

    使用MICE进行缺失值的填充处理

    在我们进行机器学习时,处理缺失数据是非常重要的,因为缺失数据可能会导致分析结果不准确,严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤,有助于确保分析结果的可信度和可解释性。
  • 02.13 11:57:38
    发表了文章 2024-02-13 11:57:38

    使用LORA微调RoBERTa

    模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。
  • 02.12 10:52:51
    发表了文章 2024-02-12 10:52:51

    使用PyOD进行异常值检测

    异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程。在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例
  • 02.11 10:21:45
    发表了文章 2024-02-11 10:21:45

    使用UMAP降维可视化RAG嵌入

    大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。
  • 02.10 14:05:43
    发表了文章 2024-02-10 14:05:43

    2024年应该关注的十大人工智能创新

    人工智能(AI)不再只是一个流行词,它已成为我们日常生活的重要组成部分。人工智能在去年深入地融入我们社会的各个方面,改变我们的生活方式、工作方式以及与技术互动的方式。
  • 02.09 10:57:09
    发表了文章 2024-02-09 10:57:09

    从模型到前端,你应该知道的LLM生态系统指南

    LLM在在2023年发展的风生水起,一个围绕LLM的庞大生态系统正在形成,本文通过介绍这个生态系统的核心组成部分,来详细整理LLM的发展。
  • 02.08 10:43:14
    发表了文章 2024-02-08 10:43:14

    Python进行AI声音克隆的端到端指南

    人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。
  • 02.07 10:29:21
    发表了文章 2024-02-07 10:29:21

    MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

    视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。
  • 02.06 10:17:46
    发表了文章 2024-02-06 10:17:46

    NLP中的嵌入和距离度量

    本文将深入研究嵌入、矢量数据库和各种距离度量的概念,并提供示例和演示代码。
  • 02.05 10:44:41
    发表了文章 2024-02-05 10:44:41

    PyTorch的10个基本张量操作

    PyTorch是一个基于python的科学计算包。它的灵活性允许轻松集成新的数据类型和算法,并且框架也是高效和可扩展的,下面我们将介绍一些Pytorch的基本张量操作。
  • 02.03 10:30:37
    发表了文章 2024-02-03 10:30:37

    12个RAG常见痛点及解决方案

    这里使用“痛点”而不是“失败点”,主要是因为我们总结的问题都有相应的建议解决方案。
  • 02.02 10:48:25
    发表了文章 2024-02-02 10:48:25

    10个Pandas的高级技巧

    Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年,但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。
  • 02.01 09:59:09
    发表了文章 2024-02-01 09:59:09

    UniMS-RAG:用于个性化对话的统一多源RAG框架

    RAG领域已经取得了相当大的发展,这篇论文的是如何分解RAG过程,加入多文件检索、记忆和个人信息等定制化的元素。
  • 01.31 10:36:59
    发表了文章 2024-01-31 10:36:59

    Langchain中改进RAG能力的3种常用的扩展查询方法

    有多种方法可以提高检索增强生成(RAG)的能力,其中一种方法称为查询扩展。我们这里主要介绍在Langchain中常用的3种方法
  • 01.30 09:50:14
    发表了文章 2024-01-30 09:50:14

    论文推荐:大语言模型在金融领域的应用调查

    这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看
  • 01.29 10:12:16
    发表了文章 2024-01-29 10:12:16

    使用核模型高斯过程(KMGPs)进行数据建模

    核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。
  • 01.28 10:40:15
    发表了文章 2024-01-28 10:40:15

    2024年1月的论文推荐

    又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
  • 01.27 10:50:04
    发表了文章 2024-01-27 10:50:04

    使用Transformer 模型进行时间序列预测的Pytorch代码示例

    时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。
  • 01.26 09:46:11
    发表了文章 2024-01-26 09:46:11

    使用mergekit 合并大型语言模型

    模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量,还可以获得额外的好处。
  • 01.25 10:44:01
    发表了文章 2024-01-25 10:44:01

    Mistral AI vs. Meta:顶级开源LLM比较

    为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
  • 01.24 10:26:31
    发表了文章 2024-01-24 10:26:31

    通过4个任务比较LangChain和LlamaIndex

    我们在本地使用大模型的时候,尤其是构建RAG应用的时候,一般会有2个成熟的框架可以使用
  • 01.23 09:39:54
    发表了文章 2024-01-23 09:39:54

    Vision Mamba:将Mamba应用于计算机视觉任务的新模型

    Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
  • 01.22 09:25:26
    发表了文章 2024-01-22 09:25:26

    针对特定领域较小的语言模型是否与较大的模型同样有效?

    经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中,作者全面分析了微调大语言模型(llm)及其在金融情绪分析中的零样本和少样本的能力。
  • 01.21 09:49:34
    发表了文章 2024-01-21 09:49:34

    2024年1月论文推荐

    2024年1月论文推荐
  • 01.20 09:41:46
    发表了文章 2024-01-20 09:41:46

    RAG中的3个高级检索技巧

    RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节,或者文档的顺序可能与用户的意图不一致时,就会经常出现这种情况。
  • 01.19 09:56:21
    发表了文章 2024-01-19 09:56:21

    4种通过LLM进行文本知识图谱的构建方法对比介绍

    我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程,比如需要对属性增加限制,创建符合特定主题/模式的图谱,并且有时文档非常大,无法作为单个提示处理,所以在切分后的提示中创建的图谱需要前后一致。
  • 01.18 10:04:17
    发表了文章 2024-01-18 10:04:17

    使用SPIN技术对LLM进行自我博弈微调训练

    2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域,研究人员积极致力于开发能够有效利用人类数据的方法。
  • 发表了文章 2025-11-28

    GraphRAG进阶:基于Neo4j与LlamaIndex的DRIFT搜索实现详解

  • 发表了文章 2025-11-27

    从零开始:用Python和Gemini 3四步搭建你自己的AI Agent

  • 发表了文章 2025-11-26

    LLM提示注入攻击深度解析:从原理到防御的完整应对方案

  • 发表了文章 2025-11-25

    分类模型校准:ROC-AUC不够?用ECE/pMAD评估概率质量

  • 发表了文章 2025-11-24

    Pixeltable:一张表搞定embeddings、LLM、向量搜索,多模态开发不再拼凑工具

  • 发表了文章 2025-11-23

    JAX 核心特性详解:纯函数、JIT 编译、自动微分等十大必知概念

  • 发表了文章 2025-11-22

    高级检索增强生成系统:LongRAG、Self-RAG 和 GraphRAG 的实现与选择

  • 发表了文章 2025-11-21

    CrewAI 上手攻略:多 Agent 自动化处理复杂任务,让 AI 像员工一样分工协作

  • 发表了文章 2025-11-20

    PyTorch 分布式训练底层原理与 DDP 实战指南

  • 发表了文章 2025-11-19

    LEANN:一个极简的本地向量数据库

  • 发表了文章 2025-11-18

    Pandas GroupBy 的 10 个实用技巧

  • 发表了文章 2025-11-17

    TOON:专为 LLM 设计的轻量级数据格式

  • 发表了文章 2025-11-16

    Python 3.14 实用技巧:10个让代码更清晰的小改进

  • 发表了文章 2025-11-15

    Python 开发必备:tempfile 模块深度解析

  • 发表了文章 2025-11-14

    超参数调优:Grid Search 和 Random Search 的实战对比

  • 发表了文章 2025-11-13

    QF-Lib:用一个库搞定Python量化回测和策略开发

  • 发表了文章 2025-11-12

    HaluMem:揭示当前AI记忆系统的系统性缺陷,系统失效率超50%

  • 发表了文章 2025-11-11

    AI智能体落地:Agent-Assist vs 全自动化完整决策指南

  • 发表了文章 2025-11-10

    基于 LangGraph 的对话式 RAG 系统实现:多轮检索与自适应查询优化

  • 发表了文章 2025-11-09

    LightRAG 实战: 基于 Ollama 搭建带知识图谱的可控 RAG 系统

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息