小森ai小小贾_社区达人页

个人头像照片
小森ai小小贾

0关注

0粉丝

已加入开发者社区469

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布137篇文章
14条评论
已回答1个问题
0条评论
已发布0个视频
github地址

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

AI冲

暂无精选文章
暂无更多信息

2024年06月

  • 06.22 17:29:44
    发表了文章 2024-06-22 17:29:44

    LLM主要类别架构(二)

    **LLM主要类别概览:** 1. **自回归模型 (AR)** - 如GPT,特点是Decoder-Only,利用上下文信息预测单词,适合自然语言生成任务。 2. **自编码模型 (AE)** - 以BERT为代表,利用上下文的双向信息进行预训练,擅长自然语言理解任务。 3. **序列到序列模型 (Seq2Seq)** - 包含编码器和解码器,用于序列转换任务,如机器翻译。 GPT是Decoder-Only模型,预训练包括两阶段: - **无监督预训练**:预测序列中缺失的单词。 - **有监督微调**:根据下游任务调整模型,如分类、问答等。
  • 06.22 17:28:49
    发表了文章 2024-06-22 17:28:49

    LLM主要类别架构(一)

    **LLM主要类别包括自编码模型(如BERT,专注内容理解),自回归模型,和序列到序列的encoder-decoder模型。BERT是预训练的双向编码器,使用Transformer架构,通过Masked LM和Next Sentence Prediction任务学习上下文表示。其特点包括:使用Transformer层、12层深度、768维特徵、12个注意力头和约1.15亿总参数。BERT在多项NLP任务中刷新纪录,适用于分类和理解任务,但不适合生成任务。**
  • 06.22 17:17:28
    发表了文章 2024-06-22 17:17:28

    大模型Prompt-Tuning技术入门(二)

    Prompt-Tuning是一种在大型语言模型中进行下游任务适配的技术,起源于GPT-3的In-context Learning和Demonstration Learning。它通过构建Prompt(提示)和Verbalizer(标签映射)来转换任务,比如将分类任务转化为填空问题。PET模型是Prompt-Tuning的早期实践,通过固定模板(Pattern)和标签词(Verbalizer)来实现。Prompt-Oriented Fine-Tuning是Prompt-Tuning的一种形式,将任务转换为与预训练任务相似的形式,如BERT的MLM任务。
  • 06.22 17:08:15
    发表了文章 2024-06-22 17:08:15

    大模型Prompt-Tuning技术入门(一)

    Prompt-Tuning是NLP领域的新兴技术,旨在减少预训练模型Fine-Tuning的需要。它通过构造提示(Prompt)使预训练模型能适应各种任务,降低了语义偏差和过拟合风险。Prompt作为任务的“提示词”,可以是人工定义、自动搜索或生成的模板,与预训练的MLM头结合使用,只需少量甚至无标注数据,通过标签词映射进行预测。此方法从GPT-3的In-Context Learning发展至今,包括了连续Prompt、大规模模型的Instruction-tuning和Chain-of-Thought等进展。 Prompt-Tuning是向少监督、无监督学习迈进的关键研究。
  • 06.22 16:53:01
    发表了文章 2024-06-22 16:53:01

    机器学习归一化特征编码(二)

    这篇文档讨论了机器学习中的特征编码,特别是独热编码(OneHotEncoder)在处理离散变量时的作用。它指出,对于多分类变量,独热编码是常用方法,但对二分类变量通常不需要。在Python的`sklearn`库中,`OneHotEncoder`可以用来实现这一过程,并可以通过设置`drop='if_binary'`来忽略二分类变量。文档还提到了逻辑回归,解释了正则化参数`C`和`penalty`,并列举了不同的优化算法,如`liblinear`、`lbfgs`等。
  • 06.22 16:52:21
    发表了文章 2024-06-22 16:52:21

    机器学习归一化特征编码(一)

    特征缩放是机器学习预处理的关键步骤,它包括归一化和标准化。归一化通过最大最小值缩放,将数据转换到[0,1]区间,有助于梯度下降算法更快收敛,减少数值较大特征的影响。标准化则通过减去均值并除以标准差,确保数据具有零均值和单位方差,适用于关注数据分布情况的算法。例如,欧氏距离计算时,未归一化的特征可能导致模型偏向数值较大的特征。归一化能提升模型精度,尤其是当距离度量如欧式距离时。常见的实现方法有`MinMaxScaler`,它将每个特征值缩放到用户指定的范围,如[0,1]。而`StandardScaler`执行Z-Score标准化,数据分布符合标准正态分布。
  • 06.22 16:45:06
    发表了文章 2024-06-22 16:45:06

    Sklearn中逻辑回归建模

    分类模型评估通常涉及准确率、召回率和F1值。准确率是正确分类样本的比例,但在类别不平衡时可能误导,例如一个模型总是预测多数类,即使误分类少数类也能有高准确率。召回率关注的是真正类被正确识别的比例,而精确率则衡量预测为正类的样本中真正为正类的比例。F1值是精确率和召回率的调和平均数,提供了两者之间的平衡。在sklearn中,可以使用`recall_score`, `precision_score` 和 `f1_score` 函数来计算这些指标。在类别重要性不同时,需根据业务需求选择合适的评估标准。
  • 06.22 16:34:42
    发表了文章 2024-06-22 16:34:42

    GBDT算法超参数评估(二)

    GBDT算法超参数评估关注决策树的不纯度指标,如基尼系数和信息熵,两者衡量数据纯度,影响树的生长。默认使用基尼系数,计算快速,而信息熵更敏感但计算慢。GBDT的弱评估器默认最大深度为3,限制了过拟合,不同于随机森林。由于Boosting的内在机制,过拟合控制更多依赖数据和参数如`max_features`。相比Bagging,Boosting通常不易过拟合。评估模型常用`cross_validate`和`KFold`交叉验证。
  • 06.22 16:31:48
    发表了文章 2024-06-22 16:31:48

    机器学习多场景实战(二 )

    这是一个关于机器学习应用于电商平台用户行为分析的概要,包括以下几个关键点: 1. **月活跃用户分析**:通过购买记录确定活跃用户,计算每月活跃用户数。 2. **月客单价**:定义为月度总销售额除以月活跃用户数,衡量平均每位活跃用户的消费金额。 3. **新用户占比**:基于用户首次购买和最近购买时间判断新老用户,计算每月新用户的购买比例。 4. **激活率计算**:定义为当月与上月都有购买行为的用户数占上月购买用户数的比例,反映用户留存情况。 5. **Pandas数据操作**:使用Pandas库进行数据集合并(concat和merge),以及计算不同维度的组合。
  • 06.22 16:30:00
    发表了文章 2024-06-22 16:30:00

    GBDT算法超参数评估(一)

    GBDT(Gradient Boosting Decision Tree)是一种强大的机器学习技术,用于分类和回归任务。超参数调整对于发挥GBDT性能至关重要。其中,`n_estimators`是一个关键参数,它决定了模型中弱学习器(通常是决策树)的数量。增加`n_estimators`可以提高模型的复杂度,提升预测精度,但也可能导致过拟合,并增加训练时间和资源需求。
  • 06.22 16:19:21
    发表了文章 2024-06-22 16:19:21

    反向传播算法

    深度学习中,反向传播是神经网络训练的关键,它通过计算损失函数对参数的梯度来调整网络权重,减少预测与真实值的差距。该过程包括:1) 前向传播,输入数据通过网络;2) 计算损失,评估预测输出与实际值的偏差;3) 反向传播,利用链式法则计算所有参数的梯度;4) 参数更新,使用梯度下降法更新权重。这一循环不断迭代,提高模型性能。反向传播使得神经网络能适应复杂任务,推动了现代机器学习的发展。
  • 06.22 16:19:14
    发表了文章 2024-06-22 16:19:14

    机器学习多场景实战(一)

    机器学习已广泛应用,从个性化推荐到金融风控,数据指标是评估其效果的关键。数据指标包括活跃用户(DAU, MAU, WAU)衡量用户粘性,新增用户量和注册转化率评估营销效果,留存率(次日、7日、30日)反映用户吸引力,行为指标如PV(页面浏览量)、UV(独立访客)和转化率分析用户行为。产品数据指标如GMV、ARPU、ARPPU和付费率关注业务变现,推广付费指标(CPM, CPC, CPA等)则关乎广告效率。找到北极星指标,如月销售额或用户留存,可指导业务发展。案例中涉及电商销售数据,计算月销售金额、环比、销量、新用户占比、激活率和留存率以评估业务表现。
  • 06.22 16:06:32
    发表了文章 2024-06-22 16:06:32

    梯度提升树GBDT系列算法

    在Boosting集成算法当中,我们逐一建立多个弱评估器(基本是决策树),并且下一个弱评估器的建立方式依赖于上一个弱评估器的评估结果,最终综合多个弱评估器的结果进行输出。
  • 06.22 16:04:38
    发表了文章 2024-06-22 16:04:38

    Transformer介绍

    Transformer模型于2017年由Google提出,其在BERT中大放异彩,革新了NLP领域。Transformer的优势在于并行计算能力和处理长距离依赖,通过自注意力机制避免了RNN/LSTM的梯度问题。它由编码器和解码器组成,使用位置编码处理序列信息。Transformer在机器翻译、文本生成、问答系统等多个任务中提升效率和准确性,并扩展至计算机视觉和语音识别。随着AI发展,Transformer成为大模型核心技术,推动整个产业进步。
  • 06.22 15:53:41
    发表了文章 2024-06-22 15:53:41

    使用seq2seq架构实现英译法(二)

    **Seq2Seq模型简介** Seq2Seq(Sequence-to-Sequence)模型是自然语言处理中的关键架构,尤其适用于机器翻译、聊天机器人和自动文摘等任务。它由编码器和解码器组成,其中编码器将输入序列转换为固定长度的上下文向量,而解码器则依据该向量生成输出序列。模型能够处理不同长度的输入和输出序列,适应性强。
  • 06.22 15:53:34
    发表了文章 2024-06-22 15:53:34

    使用seq2seq架构实现英译法(一)

    **Seq2Seq模型简介** Seq2Seq(Sequence-to-Sequence)模型是自然语言处理中的关键架构,尤其适用于机器翻译、聊天机器人和自动文摘等任务。它由编码器和解码器组成,其中编码器将输入序列转换为固定长度的上下文向量,而解码器则依据该向量生成输出序列。模型能够处理不同长度的输入和输出序列,适应性强。
  • 06.22 15:44:11
    发表了文章 2024-06-22 15:44:11

    BERT+PET方式模型训练(二)

    • 本项目中完成BERT+PET模型搭建、训练及应用的步骤如下(注意:因为本项目中使用的是BERT预训练模型,所以直接加载即可,无需重复搭建模型架构): • 一、实现模型工具类函数 • 二、实现模型训练函数,验证函数 • 三、实现模型预测函数
  • 06.22 15:44:04
    发表了文章 2024-06-22 15:44:04

    BERT+PET方式模型训练(一)

    • 本项目中完成BERT+PET模型搭建、训练及应用的步骤如下(注意:因为本项目中使用的是BERT预训练模型,所以直接加载即可,无需重复搭建模型架构): • 一、实现模型工具类函数 • 二、实现模型训练函数,验证函数 • 三、实现模型预测函数
  • 06.22 15:37:53
    发表了文章 2024-06-22 15:37:53

    大模型Prompt-Tuning技术进阶

    近年来,随着Prompt-Tuning技术的崛起,研究者们发现,在拥有超过10亿参数的大规模模型上,采用Prompt-Tuning相较于传统的Fine-tuning方法能带来显著的性能提升。特别是在小样本甚至零样本学习场景下,Prompt-Tuning能够极大地激发模型的潜力。这一成就的取得主要归功于三个关键因素:模型庞大的参数量、训练过程中使用的海量语料,以及精心设计的预训练任务。
  • 06.22 15:37:34
    发表了文章 2024-06-22 15:37:34

    AB测试实战(二)

    AB测试是一种数据驱动的产品优化方法,用于比较不同版本的网页、应用界面或营销策略的效果。
  • 06.22 15:20:53
    发表了文章 2024-06-22 15:20:53

    AB测试实战(一)

    AB测试是一种数据驱动的产品优化方法,用于比较不同版本的网页、应用界面或营销策略的效果。
  • 06.22 15:05:38
    发表了文章 2024-06-22 15:05:38

    机器学习中的集成学习(二)

    **集成学习概述** 集成学习通过结合多个弱学习器创建强学习器,如Bagging(Bootstrap Aggregating)和Boosting。Bagging通过随机采样产生训练集,训练多个弱模型,然后平均(回归)或投票(分类)得出结果,减少方差和过拟合。Boosting则是迭代过程,每个弱学习器专注于难分类样本,逐步调整样本权重,形成加权平均的强学习器。典型算法有AdaBoost、GBDT、XGBoost等。两者区别在于,Bagging模型并行训练且独立,而Boosting模型间有依赖,重视错误分类。
  • 06.22 14:55:23
    发表了文章 2024-06-22 14:55:23

    机器学习中的集成学习(一)

    集成学习是一种将多个弱学习器组合成强学习器的方法,通过投票法、平均法或加权平均等策略减少错误率。它分为弱分类器集成、模型融合和混合专家模型三个研究领域。简单集成技术包括投票法(用于分类,少数服从多数)、平均法(回归问题,预测值取平均)和加权平均法(调整模型权重以优化结果)。在实际应用中,集成学习如Bagging和Boosting是与深度学习并驾齐驱的重要算法,常用于数据竞赛和工业标准。
  • 06.22 14:47:42
    发表了文章 2024-06-22 14:47:42

    大模型应用框架-LangChain(二)

    LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。 LangChain目前有两个语言的实现:python、nodejs。
  • 06.22 14:47:35
    发表了文章 2024-06-22 14:47:35

    大模型应用框架-LangChain(一)

    LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。 LangChain目前有两个语言的实现:python、nodejs。
  • 06.22 12:08:40
    发表了文章 2024-06-22 12:08:40

    LLM主流开源代表模型(二)

    随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
  • 06.22 12:08:35
    发表了文章 2024-06-22 12:08:35

    LLM主流开源代表模型(一)

    随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
  • 06.22 11:50:17
    发表了文章 2024-06-22 11:50:17

    RNN、LSTM、GRU神经网络构建人名分类器(三)

    这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
  • 06.22 11:50:13
    发表了文章 2024-06-22 11:50:13

    RNN、LSTM、GRU神经网络构建人名分类器(二)

    这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
  • 06.22 11:49:41
    发表了文章 2024-06-22 11:49:41

    RNN、LSTM、GRU神经网络构建人名分类器(一)

    这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
  • 06.22 11:38:18
    发表了文章 2024-06-22 11:38:18

    注意力机制详解(二)

    注意力机制(Attention Mechanism)对比分析:无Attention模型中,Encoder-Decoder框架处理文本序列时,输入信息被编码为单一的中间语义表示,导致每个目标单词生成时使用相同编码,忽视了输入序列中各单词的不同影响。引入Attention模型后,每个目标单词根据输入序列动态分配注意力权重,更好地捕捉输入相关性,尤其适用于长序列,避免信息丢失。Self-Attention则进一步在序列内部建立联系,用于理解不同部分间的关系,常见于Transformer和BERT等模型中。
  • 06.22 11:32:16
    发表了文章 2024-06-22 11:32:16

    注意力机制详解(一)

    注意力机制是受人类认知过程启发的一种深度学习技术,它允许模型动态地聚焦于输入的不同部分,根据上下文分配“注意力”。这种机制最早在序列到序列模型中提出,解决了长距离依赖问题,增强了模型理解和处理复杂数据的能力。基本的注意力计算涉及查询(Q)、键(K)和值(V),通过不同方式(如点积、拼接等)计算相关性并应用softmax归一化,得到注意力权重,最后加权组合值向量得到输出。自注意力是注意力机制的一种形式,其中Q、K和V通常是相同的。在自然语言处理(NLP)中,注意力机制广泛应用在Transformer和预训练模型如BERT中,显著提升了模型的表现。
  • 06.22 11:20:44
    发表了文章 2024-06-22 11:20:44

    安装PyTorch详细步骤

    安装PyTorch时,选择CPU或GPU版本。有Nvidia显卡需装CUDA和cuDNN,可从NVIDIA官网下载CUDA 11.8和对应版本cuDNN。无Nvidia显卡则安装CPU版。安装PyTorch通过conda或pip,GPU版指定`cu118`或`rocm5.4.2`镜像源。验证安装成功使用`torch._version_`和`torch.cuda.is_available()`。
  • 06.22 11:20:29
    发表了文章 2024-06-22 11:20:29

    Tensors张量操作

    PyTorch中的`Tensor`是多维数组,类似NumPy的`ndarray`,但支持GPU加速。Tensor有属性如形状(shape)、数据类型(dtype)和存储位置(device),可创建并初始化为指定数值、从Numpy数组转换而来,或基于已有Tensor复制。Tensor可以在CPU和GPU之间移动,用于数据运算、拼接(如`torch.cat`进行连接)和转换(如与Numpy间转换,以及图像处理中的`transforms`)。通过`to()`方法可以灵活地改变Tensor的设备存储位置。
  • 06.22 11:15:22
    发表了文章 2024-06-22 11:15:22

    PyTorch的数据处理

    PyTorch中,`Dataset`封装自定义数据集,`DataLoader`负责批量加载和多线程读取。例如,定义一个简单的`Dataset`类,包含数据和标签,然后使用`DataLoader`指定批大小和工作线程数。数据预处理包括导入如Excel的数据,图像数据集可通过`torchvision.datasets`加载。示例展示了如何从Excel文件创建`Dataset`,并用`DataLoader`读取。
  • 06.22 11:05:58
    发表了文章 2024-06-22 11:05:58
  • 06.22 11:05:25
    发表了文章 2024-06-22 11:05:25

    RNN-循环神经网络

    自然语言处理(Nature language Processing, NLP)研究的主要是通过计算机算法来理解自然语言。对于自然语言来说,处理的数据主要就是人类的语言,我们在进行文本数据处理时,需要将文本进行数据值化,然后进行后续的训练工作。
  • 06.22 11:04:54
    发表了文章 2024-06-22 11:04:54

    PyTorch中的模型创建(一)

    最全最详细的PyTorch神经网络创建
  • 06.22 10:51:10
    发表了文章 2024-06-22 10:51:10

    梯度下降算法(二)

    梯度下降法中,学习率选择至关重要。0.3的学习率导致无法找到最小值且产生震荡,而0.01则使结果接近最优解(2.99998768)。当学习率进一步减小至0.001,点远离最低点。通过迭代次数增加至1000次,可更接近最低点(2.999999999256501)。梯度下降用于最小化损失,学习率控制参数更新步长,需平衡收敛速度和稳定性。迭代次数和初始点也影响模型性能,合适的初始化能加速收敛并避开局部极小值。
  • 06.22 10:50:56
    发表了文章 2024-06-22 10:50:56

    梯度下降算法(一)

    梯度下降是一种迭代优化算法,用于找到多变量函数的最小值。它不直接求解方程,而是从随机初始点开始,沿着梯度(函数增大幅度最大方向)的反方向逐步调整参数,逐步逼近函数的最小值。在单变量函数中,梯度是导数,而在多变量函数中,梯度是一个包含所有变量偏导数的向量。通过计算梯度并乘以学习率,算法更新参数以接近最小值。代码示例展示了如何用Python实现梯度下降,通过不断迭代直到梯度足够小或达到预设的最大迭代次数。该过程可以类比为在雾中下山,通过感知坡度变化来调整前进方向。
  • 06.22 10:34:08
    发表了文章 2024-06-22 10:34:08

    Logistic回归(二)

    Logistic回归,又称对数几率回归,是用于分类问题的监督学习算法。它基于对数几率(log-odds),通过对数转换几率来确保预测值在0到1之间,适合于二分类任务。模型通过Sigmoid函数(S型曲线)将线性预测转化为概率。逻辑回归损失函数常采用交叉熵,衡量模型预测概率分布与真实标签分布的差异。熵和相对熵(KL散度)是评估分布相似性的度量,低熵表示分布更集中,低交叉熵表示模型预测与真实情况更接近。
  • 06.22 10:34:01
    发表了文章 2024-06-22 10:34:01

    Logistic回归(一)

    这篇内容是一个关于逻辑回归的教程概览
  • 06.22 10:29:22
    发表了文章 2024-06-22 10:29:22

    机器学习中的聚类

    **文章摘要:** 本文介绍了聚类算法的基本概念、应用、实现流程和评估方法。聚类是一种无监督学习技术,用于将数据分为相似的组,如K-means、层次聚类、DBSCAN和谱聚类。K-means算法通过迭代优化质心,将数据点分配到最近的簇,直至质心不再变化。模型评估包括误差平方和(SSE)、肘部方法(确定最佳簇数)和轮廓系数法(Silhouette Coefficient),以量化聚类的紧密度和分离度。应用场景涵盖用户画像、广告推荐和图像分割等。在Python的sklearn库中,可以使用KMeans API进行聚类操作。
  • 06.22 10:29:16
    发表了文章 2024-06-22 10:29:16

    集成学习思想

    **集成学习**是通过结合多个预测模型来创建一个更强大、更鲁棒的系统。它利用了如随机森林、AdaBoost和GBDT等策略。随机森林通过Bootstrap抽样构建多个决策树并用多数投票决定结果,增强模型的多样性。Boosting,如Adaboost,逐步调整样本权重,使后续学习器聚焦于前一轮分类错误的样本,减少偏差。GBDT则通过拟合残差逐步提升预测精度。这些方法通过组合弱学习器形成强学习器,提高了预测准确性和模型的鲁棒性。
  • 06.22 10:15:36
    发表了文章 2024-06-22 10:15:36

    机器学习特征降维

    这篇内容概述了特征降维在机器学习中的重要性,包括三个主要方法:低方差过滤法、PCA(主成分分析)和相关系数法。低方差过滤法通过删除方差低于阈值的特征来减少无关信息;PCA通过正交变换降低数据的维数,保留大部分信息;相关系数法(如皮尔逊和斯皮尔曼相关系数)用于评估特征间的相关性,去除高度相关的特征以简化模型。这些技术有助于提高模型效率和泛化能力。
  • 06.22 10:15:21
    发表了文章 2024-06-22 10:15:21

    感知机和神经网络

    **神经网络**是模仿生物神经元结构的数学模型,用于处理复杂关系和模式识别。它由输入层、隐藏层(可能多层)和输出层组成,其中隐藏层负责信息处理。随着层数增加(深度学习),网络能处理更多信息。基本模型包括感知机,仅输入和输出层,用于线性划分;而**BP神经网络**有多个隐藏层,通过反向传播和梯度下降优化参数,避免局部最小值。训练过程中,神经元通过激励函数响应并调整权重,以提高预测准确性。
  • 06.22 10:15:17
    发表了文章 2024-06-22 10:15:17

    PyTorch 图像篇

    计算机视觉是多学科交叉的科技,属人工智能关键分支,应用于智能安防、自动驾驶、医疗和制造。技术包括物体检测、语义分割、运动跟踪等。早期依赖手工特征,但深度学习尤其是卷积神经网络(CNN)的发展改变了这一状况,CNN通过自动学习特征,改善了图像分类效率。CNN包含卷积层、池化层和全连接层,解决传统方法参数多、易丢失空间信息的问题。卷积操作在图像处理中用于特征提取,通过二维互相关运算学习图像特征。
  • 06.22 10:06:40
    发表了文章 2024-06-22 10:06:40

    简单的神经网络

    softmax激活函数将多个未归一化的值转换为概率分布,常用于多分类问题。交叉熵损失函数,特别是与softmax结合时,是评估分类模型性能的关键,尤其适用于多分类任务。它衡量模型预测概率与实际标签之间的差异。在PyTorch中,`nn.CrossEntropyLoss`函数结合了LogSoftmax和负对数似然损失,用于计算损失并进行反向传播。通过`loss.backward()`,模型参数的梯度被计算出来,然后用优化器如`SGD`更新这些参数以减小损失。
  • 06.22 10:03:50
    发表了文章 2024-06-22 10:03:50

    认识卷积神经网络

    卷积神经网络(CNN)是深度学习中用于图像处理的关键模型,它通过卷积层自动学习图像特征,池化层降低计算复杂度并保持重要特征,全连接层则用于分类或回归任务。卷积层使用可学习的滤波器扫描图像,检测特征;池化层通常采用最大池化或平均池化减少数据维度;全连接层连接所有特征以得出最终预测。CNN设计灵感来源于生物视觉系统,有效处理图像的网格结构数据,尤其适合图像识别和分类任务。
  • 06.22 10:03:44
    发表了文章 2024-06-22 10:03:44

    神经网络案例实战

    使用PyTorch解决手机价格分类问题:收集包含RAM、存储等特征的手机销售数据,将价格分为4个等级的分类任务。步骤包括数据预处理、特征工程、选择神经网络模型、训练、评估和预测。模型使用Sigmoid激活的三层网络,训练时采用交叉熵损失和SGD优化器。通过调整模型结构、优化器和学习率以优化性能。
  • 发表了文章 2024-06-22

    LLM主要类别架构(二)

  • 发表了文章 2024-06-22

    LLM主要类别架构(一)

  • 发表了文章 2024-06-22

    大模型Prompt-Tuning技术入门(二)

  • 发表了文章 2024-06-22

    大模型Prompt-Tuning技术入门(一)

  • 发表了文章 2024-06-22

    Sklearn中逻辑回归建模

  • 发表了文章 2024-06-22

    机器学习归一化特征编码(一)

  • 发表了文章 2024-06-22

    机器学习归一化特征编码(二)

  • 发表了文章 2024-06-22

    GBDT算法超参数评估(二)

  • 发表了文章 2024-06-22

    机器学习多场景实战(二 )

  • 发表了文章 2024-06-22

    GBDT算法超参数评估(一)

  • 发表了文章 2024-06-22

    机器学习多场景实战(一)

  • 发表了文章 2024-06-22

    反向传播算法

  • 发表了文章 2024-06-22

    Transformer介绍

  • 发表了文章 2024-06-22

    梯度提升树GBDT系列算法

  • 发表了文章 2024-06-22

    BERT+PET方式模型训练(一)

  • 发表了文章 2024-06-22

    使用seq2seq架构实现英译法(二)

  • 发表了文章 2024-06-22

    使用seq2seq架构实现英译法(一)

  • 发表了文章 2024-06-22

    BERT+PET方式模型训练(二)

  • 发表了文章 2024-06-22

    大模型Prompt-Tuning技术进阶

  • 发表了文章 2024-06-22

    AB测试实战(二)

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2023-12-16

    你有哪些低成本又能保持扩展性的套路?

    单例、组合、模板设计模式
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息