十三、机器学习算法构建技巧

简介: 十三、机器学习算法构建技巧

1、构建训练数据集



在实践中,通常获取垃圾邮件中出现频率最高的前10000到50000个单词作为训练集。


一个可以提高模型准确性的做法是:收集尽可能多的训练数据。


可以根据邮件的发送路由来构建更复杂的特征;


根据邮件内容构建更加复杂的特征,如字母大小写,有无感叹号等;


检查邮件中的拼写错误,故意错误拼写常在垃圾邮件中出现;




2、误差分析-error analysis



构建一个机器学习模型通用的步骤:


首先从一个简单的算法开始入手构建,使得模型可以很开构建出来,并且可以用来检测交叉验证数据集;


之后绘制学习曲线来辅助判断是否才需要增加训练数据,增加特征数量或者应该采取其他措施;


还可以进行误差分析,手动将算法错误执行的数据挑选出来进行查看,观察是否能从这些错误样本中找到普遍性的规律,以此来帮助提升算法的精度。下面是一个误差分析的例子:误差分析有助于快速找到能够大幅提升机器学习算法性能的关键点所在,如垃圾邮件分类问题中,通过误差分析可以快速确定哪一种类型的邮件容易被错误分类,从而可以采取针对性的措施。

087aefbc8af74e5d90ff438f324b575a.png


在选定了改进项之后,将新的机器学习算法使用交叉验证集进行测试计算误差,同旧的算法对交叉验证集的误差进行对比,若新算法误差有很大的降低,则说明改进有效。



3、偏斜类-skewed classes



当训练数据中某一类数据的数据量原大于另外一类数据的数据量时,则数据量少的哪一类数据就叫做“偏斜类”。在这种情况下,只预测y=0或者y=1会使得算法效果最好。为了使得不是只预测y=0或者y=1时模型最好,使用下述查准率和召回率(precision/recall)来衡量模型的好坏:

b20e64938b824952a6fa112bb61cd036.png


好的机器学习模型应该具备precision和recall均为比较高的数值的特征。



3.1 查准率和召回率之间的权衡


在癌症预测模型中,若将确定癌症的概率由0.5上升为0.7或者0.9,则会使得precision提高,因为预测患有癌症的人数降低;使得recall降低,因为正确判定患有癌症的人数也减少。


反之,若将确定癌症的概率阈值设置为0.3或者0.2,则会使得precision降低,因为预测患有癌症的人数会显著上升;使得recall提高,因为预测准确患有癌症的人数上升。

使用F值来权衡precision-P 和 recall-R


F=2P+RPR

1a7757def36848bd8e36e3d24cac2724.png


F值越大,通常来说模型的效果越好,对于交叉验证集采用不同的阈值进行模型测试,选择最大F值对应的阈值。






相关文章
|
8月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
829 1
|
10月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
1490 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
5月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
11月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
6月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
1043 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解
|
9月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
691 46
|
9月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
361 6
|
9月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。

热门文章

最新文章