小森ai小小贾_社区达人页-阿里云开发者社区

小森ai小小贾

已加入开发者社区742天

勋章更多

专家博主

星级博主

技术博主

初入江湖

成就

已发布137篇文章

14条评论

已回答1个问题

0条评论

已发布0个视频

github地址

我关注的人更多

粉丝更多

技术能力

兴趣领域

擅长领域

技术认证

暂时未有相关云产品技术能力~

AI冲

精选

高分内容

最新动态

文章
问答
视频

暂无精选文章

暂无更多信息

2024年06月

06.22 17:29:44

发表了文章 2024-06-22 17:29:44

LLM主要类别架构（二）

**LLM主要类别概览：** 1. **自回归模型 (AR)** - 如GPT，特点是Decoder-Only，利用上下文信息预测单词，适合自然语言生成任务。 2. **自编码模型 (AE)** - 以BERT为代表，利用上下文的双向信息进行预训练，擅长自然语言理解任务。 3. **序列到序列模型 (Seq2Seq)** - 包含编码器和解码器，用于序列转换任务，如机器翻译。 GPT是Decoder-Only模型，预训练包括两阶段： - **无监督预训练**：预测序列中缺失的单词。 - **有监督微调**：根据下游任务调整模型，如分类、问答等。
06.22 17:28:49

发表了文章 2024-06-22 17:28:49

LLM主要类别架构（一）

**LLM主要类别包括自编码模型（如BERT，专注内容理解），自回归模型，和序列到序列的encoder-decoder模型。BERT是预训练的双向编码器，使用Transformer架构，通过Masked LM和Next Sentence Prediction任务学习上下文表示。其特点包括：使用Transformer层、12层深度、768维特徵、12个注意力头和约1.15亿总参数。BERT在多项NLP任务中刷新纪录，适用于分类和理解任务，但不适合生成任务。**
06.22 17:17:28

发表了文章 2024-06-22 17:17:28

大模型Prompt-Tuning技术入门（二）

Prompt-Tuning是一种在大型语言模型中进行下游任务适配的技术，起源于GPT-3的In-context Learning和Demonstration Learning。它通过构建Prompt（提示）和Verbalizer（标签映射）来转换任务，比如将分类任务转化为填空问题。PET模型是Prompt-Tuning的早期实践，通过固定模板（Pattern）和标签词（Verbalizer）来实现。Prompt-Oriented Fine-Tuning是Prompt-Tuning的一种形式，将任务转换为与预训练任务相似的形式，如BERT的MLM任务。
06.22 17:08:15

发表了文章 2024-06-22 17:08:15

大模型Prompt-Tuning技术入门（一）

Prompt-Tuning是NLP领域的新兴技术，旨在减少预训练模型Fine-Tuning的需要。它通过构造提示（Prompt）使预训练模型能适应各种任务，降低了语义偏差和过拟合风险。Prompt作为任务的“提示词”，可以是人工定义、自动搜索或生成的模板，与预训练的MLM头结合使用，只需少量甚至无标注数据，通过标签词映射进行预测。此方法从GPT-3的In-Context Learning发展至今，包括了连续Prompt、大规模模型的Instruction-tuning和Chain-of-Thought等进展。 Prompt-Tuning是向少监督、无监督学习迈进的关键研究。
06.22 16:53:01

发表了文章 2024-06-22 16:53:01

机器学习归一化特征编码（二）

这篇文档讨论了机器学习中的特征编码，特别是独热编码（OneHotEncoder）在处理离散变量时的作用。它指出，对于多分类变量，独热编码是常用方法，但对二分类变量通常不需要。在Python的`sklearn`库中，`OneHotEncoder`可以用来实现这一过程，并可以通过设置`drop='if_binary'`来忽略二分类变量。文档还提到了逻辑回归，解释了正则化参数`C`和`penalty`，并列举了不同的优化算法，如`liblinear`、`lbfgs`等。
06.22 16:52:21

发表了文章 2024-06-22 16:52:21

机器学习归一化特征编码（一）

特征缩放是机器学习预处理的关键步骤，它包括归一化和标准化。归一化通过最大最小值缩放，将数据转换到[0,1]区间，有助于梯度下降算法更快收敛，减少数值较大特征的影响。标准化则通过减去均值并除以标准差，确保数据具有零均值和单位方差，适用于关注数据分布情况的算法。例如，欧氏距离计算时，未归一化的特征可能导致模型偏向数值较大的特征。归一化能提升模型精度，尤其是当距离度量如欧式距离时。常见的实现方法有`MinMaxScaler`，它将每个特征值缩放到用户指定的范围，如[0,1]。而`StandardScaler`执行Z-Score标准化，数据分布符合标准正态分布。
06.22 16:45:06

发表了文章 2024-06-22 16:45:06

Sklearn中逻辑回归建模

分类模型评估通常涉及准确率、召回率和F1值。准确率是正确分类样本的比例，但在类别不平衡时可能误导，例如一个模型总是预测多数类，即使误分类少数类也能有高准确率。召回率关注的是真正类被正确识别的比例，而精确率则衡量预测为正类的样本中真正为正类的比例。F1值是精确率和召回率的调和平均数，提供了两者之间的平衡。在sklearn中，可以使用`recall_score`, `precision_score` 和 `f1_score` 函数来计算这些指标。在类别重要性不同时，需根据业务需求选择合适的评估标准。
06.22 16:34:42

发表了文章 2024-06-22 16:34:42

GBDT算法超参数评估（二）

GBDT算法超参数评估关注决策树的不纯度指标，如基尼系数和信息熵，两者衡量数据纯度，影响树的生长。默认使用基尼系数，计算快速，而信息熵更敏感但计算慢。GBDT的弱评估器默认最大深度为3，限制了过拟合，不同于随机森林。由于Boosting的内在机制，过拟合控制更多依赖数据和参数如`max_features`。相比Bagging，Boosting通常不易过拟合。评估模型常用`cross_validate`和`KFold`交叉验证。
06.22 16:31:48

发表了文章 2024-06-22 16:31:48

机器学习多场景实战（二）

这是一个关于机器学习应用于电商平台用户行为分析的概要，包括以下几个关键点： 1. **月活跃用户分析**：通过购买记录确定活跃用户，计算每月活跃用户数。 2. **月客单价**：定义为月度总销售额除以月活跃用户数，衡量平均每位活跃用户的消费金额。 3. **新用户占比**：基于用户首次购买和最近购买时间判断新老用户，计算每月新用户的购买比例。 4. **激活率计算**：定义为当月与上月都有购买行为的用户数占上月购买用户数的比例，反映用户留存情况。 5. **Pandas数据操作**：使用Pandas库进行数据集合并（concat和merge），以及计算不同维度的组合。
06.22 16:30:00

发表了文章 2024-06-22 16:30:00

GBDT算法超参数评估（一）

GBDT（Gradient Boosting Decision Tree）是一种强大的机器学习技术，用于分类和回归任务。超参数调整对于发挥GBDT性能至关重要。其中，`n_estimators`是一个关键参数，它决定了模型中弱学习器（通常是决策树）的数量。增加`n_estimators`可以提高模型的复杂度，提升预测精度，但也可能导致过拟合，并增加训练时间和资源需求。
06.22 16:19:21

发表了文章 2024-06-22 16:19:21

反向传播算法

深度学习中，反向传播是神经网络训练的关键，它通过计算损失函数对参数的梯度来调整网络权重，减少预测与真实值的差距。该过程包括：1) 前向传播，输入数据通过网络；2) 计算损失，评估预测输出与实际值的偏差；3) 反向传播，利用链式法则计算所有参数的梯度；4) 参数更新，使用梯度下降法更新权重。这一循环不断迭代，提高模型性能。反向传播使得神经网络能适应复杂任务，推动了现代机器学习的发展。
06.22 16:19:14

发表了文章 2024-06-22 16:19:14

机器学习多场景实战（一）

机器学习已广泛应用，从个性化推荐到金融风控，数据指标是评估其效果的关键。数据指标包括活跃用户（DAU, MAU, WAU）衡量用户粘性，新增用户量和注册转化率评估营销效果，留存率（次日、7日、30日）反映用户吸引力，行为指标如PV（页面浏览量）、UV（独立访客）和转化率分析用户行为。产品数据指标如GMV、ARPU、ARPPU和付费率关注业务变现，推广付费指标（CPM, CPC, CPA等）则关乎广告效率。找到北极星指标，如月销售额或用户留存，可指导业务发展。案例中涉及电商销售数据，计算月销售金额、环比、销量、新用户占比、激活率和留存率以评估业务表现。
06.22 16:04:38

发表了文章 2024-06-22 16:04:38

Transformer介绍

Transformer模型于2017年由Google提出，其在BERT中大放异彩，革新了NLP领域。Transformer的优势在于并行计算能力和处理长距离依赖，通过自注意力机制避免了RNN/LSTM的梯度问题。它由编码器和解码器组成，使用位置编码处理序列信息。Transformer在机器翻译、文本生成、问答系统等多个任务中提升效率和准确性，并扩展至计算机视觉和语音识别。随着AI发展，Transformer成为大模型核心技术，推动整个产业进步。
06.22 15:53:41

发表了文章 2024-06-22 15:53:41

使用seq2seq架构实现英译法（二）

**Seq2Seq模型简介** Seq2Seq（Sequence-to-Sequence）模型是自然语言处理中的关键架构，尤其适用于机器翻译、聊天机器人和自动文摘等任务。它由编码器和解码器组成，其中编码器将输入序列转换为固定长度的上下文向量，而解码器则依据该向量生成输出序列。模型能够处理不同长度的输入和输出序列，适应性强。
06.22 15:53:34

发表了文章 2024-06-22 15:53:34

使用seq2seq架构实现英译法（一）

**Seq2Seq模型简介** Seq2Seq（Sequence-to-Sequence）模型是自然语言处理中的关键架构，尤其适用于机器翻译、聊天机器人和自动文摘等任务。它由编码器和解码器组成，其中编码器将输入序列转换为固定长度的上下文向量，而解码器则依据该向量生成输出序列。模型能够处理不同长度的输入和输出序列，适应性强。
06.22 15:44:11

发表了文章 2024-06-22 15:44:11

BERT+PET方式模型训练（二）

• 本项目中完成BERT+PET模型搭建、训练及应用的步骤如下（注意：因为本项目中使用的是BERT预训练模型，所以直接加载即可，无需重复搭建模型架构）: • 一、实现模型工具类函数 • 二、实现模型训练函数,验证函数 • 三、实现模型预测函数
06.22 15:44:04

发表了文章 2024-06-22 15:44:04

BERT+PET方式模型训练（一）

• 本项目中完成BERT+PET模型搭建、训练及应用的步骤如下（注意：因为本项目中使用的是BERT预训练模型，所以直接加载即可，无需重复搭建模型架构）: • 一、实现模型工具类函数 • 二、实现模型训练函数,验证函数 • 三、实现模型预测函数
06.22 15:37:53

发表了文章 2024-06-22 15:37:53

大模型Prompt-Tuning技术进阶

近年来，随着Prompt-Tuning技术的崛起，研究者们发现，在拥有超过10亿参数的大规模模型上，采用Prompt-Tuning相较于传统的Fine-tuning方法能带来显著的性能提升。特别是在小样本甚至零样本学习场景下，Prompt-Tuning能够极大地激发模型的潜力。这一成就的取得主要归功于三个关键因素：模型庞大的参数量、训练过程中使用的海量语料，以及精心设计的预训练任务。
06.22 15:37:34

发表了文章 2024-06-22 15:37:34

AB测试实战（二）

AB测试是一种数据驱动的产品优化方法，用于比较不同版本的网页、应用界面或营销策略的效果。
06.22 15:20:53

发表了文章 2024-06-22 15:20:53

AB测试实战（一）

AB测试是一种数据驱动的产品优化方法，用于比较不同版本的网页、应用界面或营销策略的效果。
06.22 15:05:38

发表了文章 2024-06-22 15:05:38

机器学习中的集成学习（二）

**集成学习概述** 集成学习通过结合多个弱学习器创建强学习器，如Bagging（Bootstrap Aggregating）和Boosting。Bagging通过随机采样产生训练集，训练多个弱模型，然后平均（回归）或投票（分类）得出结果，减少方差和过拟合。Boosting则是迭代过程，每个弱学习器专注于难分类样本，逐步调整样本权重，形成加权平均的强学习器。典型算法有AdaBoost、GBDT、XGBoost等。两者区别在于，Bagging模型并行训练且独立，而Boosting模型间有依赖，重视错误分类。
06.22 14:55:23

发表了文章 2024-06-22 14:55:23

机器学习中的集成学习（一）

集成学习是一种将多个弱学习器组合成强学习器的方法，通过投票法、平均法或加权平均等策略减少错误率。它分为弱分类器集成、模型融合和混合专家模型三个研究领域。简单集成技术包括投票法（用于分类，少数服从多数）、平均法（回归问题，预测值取平均）和加权平均法（调整模型权重以优化结果）。在实际应用中，集成学习如Bagging和Boosting是与深度学习并驾齐驱的重要算法，常用于数据竞赛和工业标准。
06.22 14:47:42

发表了文章 2024-06-22 14:47:42

大模型应用框架-LangChain（二）

LangChain由 Harrison Chase 创建于2022年10月，它是围绕LLMs（大语言模型）建立的一个框架，LLMs使用机器学习算法和海量数据来分析和理解自然语言，GPT3.5、GPT4是LLMs最先进的代表，国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs，它的核心理念是为各种LLMs实现通用的接口，把LLMs相关的组件“链接”在一起，简化LLMs应用的开发难度，方便开发者快速地开发复杂的LLMs应用。 LangChain目前有两个语言的实现：python、nodejs。
06.22 14:47:35

发表了文章 2024-06-22 14:47:35

大模型应用框架-LangChain（一）

LangChain由 Harrison Chase 创建于2022年10月，它是围绕LLMs（大语言模型）建立的一个框架，LLMs使用机器学习算法和海量数据来分析和理解自然语言，GPT3.5、GPT4是LLMs最先进的代表，国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs，它的核心理念是为各种LLMs实现通用的接口，把LLMs相关的组件“链接”在一起，简化LLMs应用的开发难度，方便开发者快速地开发复杂的LLMs应用。 LangChain目前有两个语言的实现：python、nodejs。
06.22 12:08:40

发表了文章 2024-06-22 12:08:40

LLM主流开源代表模型（二）

随着ChatGPT迅速火爆，引发了大模型的时代变革，国内外各大公司也快速跟进生成式AI市场，近百款大模型发布及应用。
06.22 12:08:35

发表了文章 2024-06-22 12:08:35

LLM主流开源代表模型（一）

随着ChatGPT迅速火爆，引发了大模型的时代变革，国内外各大公司也快速跟进生成式AI市场，近百款大模型发布及应用。
06.22 11:50:17

发表了文章 2024-06-22 11:50:17

RNN、LSTM、GRU神经网络构建人名分类器（三）

这个文本描述了一个使用RNN（循环神经网络）、LSTM（长短期记忆网络）和GRU（门控循环单元）构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要，因为可以自动为用户注册时提供相应的国家或地区选项。
06.22 11:50:13

发表了文章 2024-06-22 11:50:13

RNN、LSTM、GRU神经网络构建人名分类器（二）

这个文本描述了一个使用RNN（循环神经网络）、LSTM（长短期记忆网络）和GRU（门控循环单元）构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要，因为可以自动为用户注册时提供相应的国家或地区选项。
06.22 11:49:41

发表了文章 2024-06-22 11:49:41

RNN、LSTM、GRU神经网络构建人名分类器（一）

这个文本描述了一个使用RNN（循环神经网络）、LSTM（长短期记忆网络）和GRU（门控循环单元）构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要，因为可以自动为用户注册时提供相应的国家或地区选项。
06.22 11:38:18

发表了文章 2024-06-22 11:38:18

注意力机制详解（二）

注意力机制（Attention Mechanism）对比分析：无Attention模型中，Encoder-Decoder框架处理文本序列时，输入信息被编码为单一的中间语义表示，导致每个目标单词生成时使用相同编码，忽视了输入序列中各单词的不同影响。引入Attention模型后，每个目标单词根据输入序列动态分配注意力权重，更好地捕捉输入相关性，尤其适用于长序列，避免信息丢失。Self-Attention则进一步在序列内部建立联系，用于理解不同部分间的关系，常见于Transformer和BERT等模型中。
06.22 11:32:16

发表了文章 2024-06-22 11:32:16

注意力机制详解（一）

注意力机制是受人类认知过程启发的一种深度学习技术，它允许模型动态地聚焦于输入的不同部分，根据上下文分配“注意力”。这种机制最早在序列到序列模型中提出，解决了长距离依赖问题，增强了模型理解和处理复杂数据的能力。基本的注意力计算涉及查询（Q）、键（K）和值（V），通过不同方式（如点积、拼接等）计算相关性并应用softmax归一化，得到注意力权重，最后加权组合值向量得到输出。自注意力是注意力机制的一种形式，其中Q、K和V通常是相同的。在自然语言处理（NLP）中，注意力机制广泛应用在Transformer和预训练模型如BERT中，显著提升了模型的表现。
06.22 11:20:44

发表了文章 2024-06-22 11:20:44

安装PyTorch详细步骤

安装PyTorch时，选择CPU或GPU版本。有Nvidia显卡需装CUDA和cuDNN，可从NVIDIA官网下载CUDA 11.8和对应版本cuDNN。无Nvidia显卡则安装CPU版。安装PyTorch通过conda或pip，GPU版指定`cu118`或`rocm5.4.2`镜像源。验证安装成功使用`torch._version_`和`torch.cuda.is_available()`。
06.22 11:20:29

发表了文章 2024-06-22 11:20:29

Tensors张量操作

PyTorch中的`Tensor`是多维数组，类似NumPy的`ndarray`，但支持GPU加速。Tensor有属性如形状(shape)、数据类型(dtype)和存储位置(device)，可创建并初始化为指定数值、从Numpy数组转换而来，或基于已有Tensor复制。Tensor可以在CPU和GPU之间移动，用于数据运算、拼接（如`torch.cat`进行连接）和转换（如与Numpy间转换，以及图像处理中的`transforms`）。通过`to()`方法可以灵活地改变Tensor的设备存储位置。
06.22 11:15:22

发表了文章 2024-06-22 11:15:22

PyTorch的数据处理

PyTorch中，`Dataset`封装自定义数据集，`DataLoader`负责批量加载和多线程读取。例如，定义一个简单的`Dataset`类，包含数据和标签，然后使用`DataLoader`指定批大小和工作线程数。数据预处理包括导入如Excel的数据，图像数据集可通过`torchvision.datasets`加载。示例展示了如何从Excel文件创建`Dataset`，并用`DataLoader`读取。
06.22 11:05:58

发表了文章 2024-06-22 11:05:58

PyTorch中的模型创建（二）

卷积层
06.22 11:05:25

发表了文章 2024-06-22 11:05:25

RNN-循环神经网络

自然语言处理（Nature language Processing, NLP）研究的主要是通过计算机算法来理解自然语言。对于自然语言来说，处理的数据主要就是人类的语言，我们在进行文本数据处理时，需要将文本进行数据值化，然后进行后续的训练工作。
06.22 11:04:54

发表了文章 2024-06-22 11:04:54

PyTorch中的模型创建（一）

最全最详细的PyTorch神经网络创建
06.22 10:51:10

发表了文章 2024-06-22 10:51:10

梯度下降算法（二）

梯度下降法中，学习率选择至关重要。0.3的学习率导致无法找到最小值且产生震荡，而0.01则使结果接近最优解（2.99998768）。当学习率进一步减小至0.001，点远离最低点。通过迭代次数增加至1000次，可更接近最低点（2.999999999256501）。梯度下降用于最小化损失，学习率控制参数更新步长，需平衡收敛速度和稳定性。迭代次数和初始点也影响模型性能，合适的初始化能加速收敛并避开局部极小值。
06.22 10:50:56

发表了文章 2024-06-22 10:50:56

梯度下降算法（一）

梯度下降是一种迭代优化算法，用于找到多变量函数的最小值。它不直接求解方程，而是从随机初始点开始，沿着梯度（函数增大幅度最大方向）的反方向逐步调整参数，逐步逼近函数的最小值。在单变量函数中，梯度是导数，而在多变量函数中，梯度是一个包含所有变量偏导数的向量。通过计算梯度并乘以学习率，算法更新参数以接近最小值。代码示例展示了如何用Python实现梯度下降，通过不断迭代直到梯度足够小或达到预设的最大迭代次数。该过程可以类比为在雾中下山，通过感知坡度变化来调整前进方向。
06.22 10:34:08

发表了文章 2024-06-22 10:34:08

Logistic回归（二）

Logistic回归，又称对数几率回归，是用于分类问题的监督学习算法。它基于对数几率（log-odds），通过对数转换几率来确保预测值在0到1之间，适合于二分类任务。模型通过Sigmoid函数（S型曲线）将线性预测转化为概率。逻辑回归损失函数常采用交叉熵，衡量模型预测概率分布与真实标签分布的差异。熵和相对熵（KL散度）是评估分布相似性的度量，低熵表示分布更集中，低交叉熵表示模型预测与真实情况更接近。
06.22 10:34:01

发表了文章 2024-06-22 10:34:01

Logistic回归（一）

这篇内容是一个关于逻辑回归的教程概览
06.22 10:29:22

发表了文章 2024-06-22 10:29:22

机器学习中的聚类

**文章摘要：** 本文介绍了聚类算法的基本概念、应用、实现流程和评估方法。聚类是一种无监督学习技术，用于将数据分为相似的组，如K-means、层次聚类、DBSCAN和谱聚类。K-means算法通过迭代优化质心，将数据点分配到最近的簇，直至质心不再变化。模型评估包括误差平方和(SSE)、肘部方法（确定最佳簇数）和轮廓系数法（Silhouette Coefficient），以量化聚类的紧密度和分离度。应用场景涵盖用户画像、广告推荐和图像分割等。在Python的sklearn库中，可以使用KMeans API进行聚类操作。
06.22 10:29:16

发表了文章 2024-06-22 10:29:16

集成学习思想

**集成学习**是通过结合多个预测模型来创建一个更强大、更鲁棒的系统。它利用了如随机森林、AdaBoost和GBDT等策略。随机森林通过Bootstrap抽样构建多个决策树并用多数投票决定结果，增强模型的多样性。Boosting，如Adaboost，逐步调整样本权重，使后续学习器聚焦于前一轮分类错误的样本，减少偏差。GBDT则通过拟合残差逐步提升预测精度。这些方法通过组合弱学习器形成强学习器，提高了预测准确性和模型的鲁棒性。
06.22 10:15:36

发表了文章 2024-06-22 10:15:36

机器学习特征降维

这篇内容概述了特征降维在机器学习中的重要性，包括三个主要方法：低方差过滤法、PCA（主成分分析）和相关系数法。低方差过滤法通过删除方差低于阈值的特征来减少无关信息；PCA通过正交变换降低数据的维数，保留大部分信息；相关系数法（如皮尔逊和斯皮尔曼相关系数）用于评估特征间的相关性，去除高度相关的特征以简化模型。这些技术有助于提高模型效率和泛化能力。
06.22 10:15:21

发表了文章 2024-06-22 10:15:21

感知机和神经网络

**神经网络**是模仿生物神经元结构的数学模型，用于处理复杂关系和模式识别。它由输入层、隐藏层（可能多层）和输出层组成，其中隐藏层负责信息处理。随着层数增加（深度学习），网络能处理更多信息。基本模型包括感知机，仅输入和输出层，用于线性划分；而**BP神经网络**有多个隐藏层，通过反向传播和梯度下降优化参数，避免局部最小值。训练过程中，神经元通过激励函数响应并调整权重，以提高预测准确性。
06.22 10:15:17

发表了文章 2024-06-22 10:15:17

PyTorch 图像篇

计算机视觉是多学科交叉的科技，属人工智能关键分支，应用于智能安防、自动驾驶、医疗和制造。技术包括物体检测、语义分割、运动跟踪等。早期依赖手工特征，但深度学习尤其是卷积神经网络（CNN）的发展改变了这一状况，CNN通过自动学习特征，改善了图像分类效率。CNN包含卷积层、池化层和全连接层，解决传统方法参数多、易丢失空间信息的问题。卷积操作在图像处理中用于特征提取，通过二维互相关运算学习图像特征。
06.22 10:06:40

发表了文章 2024-06-22 10:06:40

简单的神经网络

softmax激活函数将多个未归一化的值转换为概率分布，常用于多分类问题。交叉熵损失函数，特别是与softmax结合时，是评估分类模型性能的关键，尤其适用于多分类任务。它衡量模型预测概率与实际标签之间的差异。在PyTorch中，`nn.CrossEntropyLoss`函数结合了LogSoftmax和负对数似然损失，用于计算损失并进行反向传播。通过`loss.backward()`，模型参数的梯度被计算出来，然后用优化器如`SGD`更新这些参数以减小损失。
06.22 10:03:50

发表了文章 2024-06-22 10:03:50

认识卷积神经网络

卷积神经网络（CNN）是深度学习中用于图像处理的关键模型，它通过卷积层自动学习图像特征，池化层降低计算复杂度并保持重要特征，全连接层则用于分类或回归任务。卷积层使用可学习的滤波器扫描图像，检测特征；池化层通常采用最大池化或平均池化减少数据维度；全连接层连接所有特征以得出最终预测。CNN设计灵感来源于生物视觉系统，有效处理图像的网格结构数据，尤其适合图像识别和分类任务。
06.22 10:03:44

发表了文章 2024-06-22 10:03:44

神经网络案例实战

使用PyTorch解决手机价格分类问题：收集包含RAM、存储等特征的手机销售数据，将价格分为4个等级的分类任务。步骤包括数据预处理、特征工程、选择神经网络模型、训练、评估和预测。模型使用Sigmoid激活的三层网络，训练时采用交叉熵损失和SGD优化器。通过调整模型结构、优化器和学习率以优化性能。

发表了文章 2024-06-22

LLM主要类别架构（二）
发表了文章 2024-06-22

LLM主要类别架构（一）
发表了文章 2024-06-22

大模型Prompt-Tuning技术入门（二）
发表了文章 2024-06-22

大模型Prompt-Tuning技术入门（一）
发表了文章 2024-06-22

Sklearn中逻辑回归建模
发表了文章 2024-06-22

机器学习归一化特征编码（一）
发表了文章 2024-06-22

机器学习归一化特征编码（二）
发表了文章 2024-06-22

GBDT算法超参数评估（二）
发表了文章 2024-06-22

机器学习多场景实战（二）
发表了文章 2024-06-22

GBDT算法超参数评估（一）
发表了文章 2024-06-22

机器学习多场景实战（一）
发表了文章 2024-06-22

反向传播算法
发表了文章 2024-06-22

Transformer介绍
发表了文章 2024-06-22

BERT+PET方式模型训练（一）
发表了文章 2024-06-22

使用seq2seq架构实现英译法（二）
发表了文章 2024-06-22

使用seq2seq架构实现英译法（一）
发表了文章 2024-06-22

BERT+PET方式模型训练（二）
发表了文章 2024-06-22

大模型Prompt-Tuning技术进阶
发表了文章 2024-06-22

AB测试实战（二）
发表了文章 2024-06-22

AB测试实战（一）

正在加载, 请稍后...

滑动查看更多

回答了问题 2023-12-16

你有哪些低成本又能保持扩展性的套路？

单例、组合、模板设计模式

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

小森ai小小贾_社区达人页

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

勋章 更多

成就

我关注的人 更多

粉丝 更多

技术能力

LLM主要类别架构（二）

LLM主要类别架构（一）

大模型Prompt-Tuning技术入门（二）

大模型Prompt-Tuning技术入门（一）

Sklearn中逻辑回归建模

机器学习归一化特征编码（一）

机器学习归一化特征编码（二）

GBDT算法超参数评估（二）

机器学习多场景实战（二 ）

GBDT算法超参数评估（一）

机器学习多场景实战（一）

反向传播算法

Transformer介绍

BERT+PET方式模型训练（一）

使用seq2seq架构实现英译法（二）

使用seq2seq架构实现英译法（一）

BERT+PET方式模型训练（二）

大模型Prompt-Tuning技术进阶

AB测试实战（二）

AB测试实战（一）

你有哪些低成本又能保持扩展性的套路？

勋章更多

我关注的人更多

粉丝更多

机器学习多场景实战（二）