文档备案控制台

开发者社区 ModelScope模型即服务文章正文

机器学习之分类-概率生成模型

2022-12-28 1124

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习之分类-概率生成模型

分类

定义：按照种类、等级或性质分别归类。

我们要做的就是找到一个模型（函数）可以对数据进行分类最后给出一个对应的预测类别

我们可以可以通过一些数据的导入通过训练确定模型的一些参数，最后推测的类型。

回归与分类

分类问题不适合使用回归的方式来完成，不是说不行，就是最后的模型会惩罚那些太"正确"的结果。

左图是分类任务使用回归方式预测结果，绿色的线是一个比较理想的模型，可以比较好的用回归来预测我们的结果，但是图二这种情况就会导致我们的模型发生偏离变成了紫色的这部分，这效果反而不好了，就是因为他被远远大于1的这部分“他认为是错误的”数据给“带偏了”。

而且实际中两者不一定有这类线性的关系，到最后不一定会有一个好的结果。

Generative Model

两个箱子里面有两种不同的球，球在两个箱子里面的比例不一样，随机从一个箱子里面取一个A球的概率是多少？

首先我们要对数据进行分析，我们最少需要4种数据。

1、球在两个箱子里面的比例（p(c1)/p(c2)）

2、两个箱子随机抽取到的比例(p(A|c1)/p(A|c2))

有了这4个值才可以开始构建模型进行计算。

经过计算得到的公式如上图所示。

如果生成一个模型那么模型的公式是什么呢？

分类的理想步骤

寻找一个模型
（输出的结果是float，线性结果输出是整型。）
loss的定义：f在训练数据上得到不正确结果的次数，次数越小越好

宝可梦分类

通过已有的一些数据区分未知的宝可梦的属性。

宝可梦有18种不一样的属性，属于多分类任务。

第一步收集data

假设收集先出现的300只为训练集后面的为校验集。

比如：

皮卡丘的输出就是电

杰尼龟的输出就是水

妙蛙草的输出就是草

第二步数据处理

以二分类为例（水系的和一般系的）

class1是水系class2是一般系的。

把编号小于400的作为训练集，大于的作为验证集。

其中水系的79只（个），一般系的61只（个）

第三步模型假设。

我们知道了数据和上面Generative Model一样，class1是水系，class2是一般系。

从里面随机取一只宝可梦水系的概率是多少呢？？？

p(水系）= 79/（79+61）=56%

那么一般系呢？

同理

p(一般系）= 61/（79+61）= 44%

海龟的概率

如果从水系的里面抽取一只出来是海龟那么他的概率是多少呢？

水系的有79只其中杰尼杰尼的杰尼龟，可达鸭，蚊香蝌蚪……都是那么水龟的概率是多少呢？

首先把这些宝可梦的特征用向量来表示。

通过他们的防御力和特殊防御力可以获得一张散点图。里面每一个点代表了一只宝可梦。

那我们得到海龟的概率是多少呢？

这个值和我们的均值𝝁还有协方差矩阵𝜮决定。

通过𝝁和𝜮得到一个模型，然后通过模型可以得到一个值。

不同的均值和协方差矩阵构建的模型是完全不一样的。

如果这两个值固定得到的一个模型，那么数据带进模型得到的值越小我们抽到这个宝可梦的概率就越大。

假设水系宝可梦的模型值如上

我们模型的值可以用下面的公式来表示：

画出来的图就类似于上面的圆，如果一个宝可梦的值是new那么他是水系的概率就没有那么高，月接近圆里面概率越高。

模型的由来

上面提到了是由均值和协方差矩阵矩阵决定的那么这两个值怎么来呢？

每一个模型都可以抽取到我们所有的宝可梦，只不过概率不一样。

概率值是每一只宝可梦预测值的积，那么我们要怎么样选取最好的那一个模型呢？

通过上面的公式可以求得最好的值。

进行分类

我们已经把两个模型都获取好了，接下来就是分类的问题。

把数值带人我们之前的那些公式，然后就是可以获得一个标准，如果这个值大于0.5那么就是就是水系的反之就是普通系的。

经过计算效果都不是很好，没有把水系宝可梦和普通系的宝可梦明显的进行区分，最后的结果不是很好，预测值只有46%。

改进

之前是把宝可梦放在两个盒子里面数据参数非常多，能不能假设他们都在一个盒子里面就是放的位置分布不一样呢？

均值𝝁不相同，但是协方差矩阵𝜮是一样的（类似于一个盒子）

那么这个"盒子"的大小也需要重新计算。对数据进行加权平均以后就可以得到结果。

通过这样子计算准确率得到了54%

然后把每个宝可梦的7个数据代入在7维的空间里面最后的准确率达到了73%

采用不同的分布方式

不同的分布方式可以得到不一样的结果

如果你假设所有的维度都是独立的，那么你就使用了朴素贝叶斯分类器。

对于二元特征，你可以假设它们来自伯努利分布。

对于不同的假设最后的结果也是不一样的，如果假设是比较精准的效果就会比较好，如果不是精准的最后的效果也不会很好。

Posterior Probability

传说中的飞桨社区最菜代码人，让我们一起努力！

记住：三岁出品必是精品（~~不要脸系列~~）

文章标签：

机器学习/深度学习

数据处理

关键词：

人工智能平台 PAI模型

人工智能平台 PAI分类

人工智能平台 PAI概率

人工智能平台 PAI概率模型

机器学习平台 PAI模型

jhcgt

目录

相关文章

探索云世界

|

8月前

|

人工智能自然语言处理 IDE

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源，阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型，并可在交互式建模环境中使用 Qwen3-Coder 模型。

探索云世界

1308 109 109

探索云世界

|

9月前

|

人工智能自然语言处理运维

【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型

月之暗面发布开源模型Kimi K2，采用MoE架构，参数达1T，激活参数32B，具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署，提供企业级方案。

探索云世界

536 0 0

【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型

Deephub

|

10月前

|

机器学习/深度学习算法安全

差分隐私机器学习：通过添加噪声让模型更安全，也更智能

本文探讨在敏感数据上应用差分隐私（DP）进行机器学习的挑战与实践。通过模拟DP-SGD算法，在模型训练中注入噪声以保护个人隐私。实验表明，该方法在保持71%准确率和0.79 AUC的同时，具备良好泛化能力，但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量，而非事后补救，并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。

Deephub

688 3 3

差分隐私机器学习：通过添加噪声让模型更安全，也更智能

阿里云大数据Al技术

|

9月前

|

人工智能自然语言处理运维

【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型

阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型，提供企业级部署方案。

阿里云大数据Al技术

716 3 3

阿里云大数据Al技术

|

10月前

|

机器学习/深度学习人工智能算法

Post-Training on PAI (4)：模型微调SFT、DPO、GRPO

阿里云人工智能平台 PAI 提供了完整的模型微调产品能力，支持监督微调（SFT）、偏好对齐（DPO）、强化学习微调（GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级，分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。

阿里云大数据Al技术

1559 17 17

青云交（Java大数据AI云原生Python）

|

10月前

|

机器学习/深度学习分布式计算 Java

Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用（199）

本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题，结合Hadoop、Spark与深度学习框架，实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力，推动遥感图像分类迈向新高度。

青云交（Java大数据AI云原生Python）

474 0 0

青云交（Java大数据AI云原生Python）

|

10月前

|

机器学习/深度学习存储 Java

Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用（190）

本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析，开发者可深入洞察玩家行为特征，构建个性化运营策略。同时，利用回归模型优化游戏数值与付费机制，提升游戏公平性与用户体验。

青云交（Java大数据AI云原生Python）

416 0 0

青云交（Java大数据AI云原生Python）

|

10月前

|

机器学习/深度学习算法 Java

Java 大视界 -- Java 大数据机器学习模型在舆情分析中的情感倾向判断与话题追踪（185）

本篇文章深入探讨了Java大数据与机器学习在舆情分析中的应用，重点介绍了情感倾向判断与话题追踪的技术实现。通过实际案例，展示了如何利用Java生态工具如Hadoop、Hive、Weka和Deeplearning4j进行舆情数据处理、情感分类与趋势预测，揭示了其在企业品牌管理与政府决策中的重要价值。文章还展望了多模态融合、实时性提升及个性化服务等未来发展方向。

青云交（Java大数据AI云原生Python）

480 0 0

游客rj7kdyude6p6g

|

7月前

|

机器学习/深度学习数据采集人工智能

【机器学习算法篇】K-近邻算法

K近邻（KNN）是一种基于“物以类聚”思想的监督学习算法，通过计算样本间距离，选取最近K个邻居投票决定类别。支持多种距离度量，如欧式、曼哈顿、余弦相似度等，适用于分类与回归任务。结合Scikit-learn可高效实现，需合理选择K值并进行数据预处理，常用于鸢尾花分类等经典案例。（238字）

游客rj7kdyude6p6g

2065 7 7

ModelScope模型即服务

热门文章

最新文章

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

MiniCPM-V 4.6 开源：1.3B 多模态模型登顶同尺寸榜单，6G 内存跑通手机端

LTX-2.3开源：视频生成引擎级升级

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Claude Cowork 支持第三方模型接入开放而不开源

Seedance vs Sora vs Kling：AI 视频生成模型深度对比

可计算元认知文本分析：癌症社会科学研究语义基线的构建与边界信号检测

Google 的 IDE 演进小史

LLM 训练能不能少跑一点？Nous Research 的 TST 方法

终端里跑 3D 老鼠，桌面窗口成摆锤；AI 大佬新公司估值百亿起

用好 Codex Goal，关键就这三步

书尖 AI 借力阿里云云端算力，打造全新智慧阅读学习模式

实战分享：生产级AI Agents 7天内上线完成网站主页/域名/Agent Workflow/ 部署和出海打榜

日抛型软件的双链路设计——从"日抛"到"认知进化"的范式革命

WeaveFox，个人创作者的 AI 应用助手

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

相关产品

人工智能平台 PAI

文档详情产品详情

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

机器学习在恶意样本检测方面的实践之路

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

下一篇

多端CRM客户关系管理系统源码下载(PHP/Java/Python)完整开源版