随机森林优化贝叶斯预测分析汽车燃油经济性

简介: 随机森林优化贝叶斯预测分析汽车燃油经济性

这个例子展示了如何用Matlab实现贝叶斯优化,使用分位数误差调整回归树随机森林的超参数。如果你打算使用模型来预测条件量值而不是条件平均值,那么使用分位数误差而不是平均平方误差来调整模型是合适的。

加载和预处理数据

加载数据集。考虑建立一个模型,预测一辆汽车的燃油经济性中位数,给定它的加速度、汽缸数、发动机排量、马力、制造商、型号和重量。考虑将汽缸数、制造商和型号_年份作为分类变量。

Cylinders = categorical(Cylinders);

指定调整参数

考虑调整:

  • 森林中的树木的复杂性(深度)。深的树倾向于过度拟合,但浅的树倾向于欠拟合。因此,规定每片叶子的最小观测值数量最多为20。
  • 生长树时,在每个节点上要采样的预测器数量。指定从1到所有预测的采样。

实现贝叶斯优化的函数,要求你将这些参数作为优化变量对象传递。

optim('minLS',\[1,maxMinLS\],'Type');

超参数随机森林是一个2乘1的优化变量对象数组

贝叶斯优化倾向于选择包含很多树的随机森林,因为具有更多学习者的合集更准确。如果可用的计算资源是一个考虑因素,并且你倾向于树数较少的合集,那么可以考虑将树的数量与其他参数分开调整,或者对含有许多学习者的模型进行惩罚。

定义目标函数

为贝叶斯优化算法定义一个要优化的目标函数。该函数应:

  • 接受要调整的参数作为输入。
  • 使用TreeBagger训练一个随机森林。在TreeBagger调用中,指定要调整的参数并指定返回袋外指数。
  • 根据中位数估计袋外分位数误差。
  • 返回袋外数据的分位数误差。
function Err = RF(X)
%训练随机森林并估计袋外的分位数误差
% 使用X中的预测数据和params中的参数说明,训练一个由300棵回归树组成的随机森林,然后根据中位数返回袋外误差。X是一个表,params是一个数组,对应于每个节点的最小叶子大小和预测器数量来采样。
randomForest = Tree(300,X);
Error(randomForest);

使用贝叶斯优化实现目标最小化

使用贝叶斯优化法,找到在树的复杂性和每个节点的预测因子数量方面达到最小的、惩罚的、袋外分位数误差的模型。

bayes(@(params)oobErrRF,parameters,...);

结果是一个BayesianOptimization对象,其中包括目标函数的最小值和优化的超参数值。

显示观察到的目标函数的最小值和优化的超参数值。

MinObjective
bestHyperpara

使用优化的超参数训练模型

使用整个数据集和优化的超参数值训练一个随机森林。

Tree(300,X,'MPG','regression',...);

Mdl是为中位数预测优化的TreeBagger对象。你可以通过将Mdl和新数据传递给quantilePredict来预测给定的预测数据的燃油经济性中值。

相关文章
|
编译器 图形学 C语言
SSE2 指令集简介以及与SSE的差别
SSE2,Intel在2001年为Pentium 4引入的扩展,增强了SSE的功能,添加了对双精度浮点和64位整数运算的支持,新增144条指令,提升向量处理能力。SSE2的C代码示例展示了如何通过`_mm_add_ps`加速向量加法。启用SSE2编译器支持可优化处理图像、音频和视频等大量计算任务的性能。
|
12月前
|
SQL 关系型数据库 MySQL
MySQL常见函数第二期,你都用过哪些呢 ?
本期介绍了20个常用的MySQL函数,涵盖日期处理(如CURDATE()、DATE_FORMAT())、数学运算(如ABS()、ROUND())、统计分析(如COUNT()、SUM())等,帮助提高SQL查询效率和数据处理能力。希望对大家的学习有所帮助。
293 7
|
机器学习/深度学习 C语言
【c语言】一篇文章搞懂函数递归
本文详细介绍了函数递归的概念、思想及其限制条件,并通过求阶乘、打印整数每一位和求斐波那契数等实例,展示了递归的应用。递归的核心在于将大问题分解为小问题,但需注意递归可能导致效率低下和栈溢出的问题。文章最后总结了递归的优缺点,提醒读者在实际编程中合理使用递归。
438 7
|
UED 容器
使用Flexbox布局实现响应式设计
【10月更文挑战第27天】
|
移动开发 JavaScript 前端开发
HTML5 Web Workers详解
HTML5 Web Workers 允许在后台线程中运行 JavaScript,实现复杂计算而不影响用户界面,提升应用性能。其主要特性包括并行处理、异步通信、独立作用域及多数据类型支持。通过创建和使用 Worker 文件,如 `worker.js`,可执行后台任务,并与主线程通过消息传递机制通信。适用于数据处理、图像处理、复杂计算及网络请求并行等场景。需要注意的是,Web Workers 在浏览器兼容性、安全性限制、调试及资源消耗方面需特别关注。合理利用 Web Workers 可显著增强 Web 应用的流畅度和响应速度。
|
SQL 关系型数据库 MySQL
MySQL 数据控制语言(DCL):管理用户权限
MySQL 是一个强大的关系型数据库管理系统,提供了丰富的功能和选项来管理数据库和用户。数据库管理员(DBA)通常使用数据控制语言(Data Control Language,简称 DCL)来管理用户的权限和访问。 本文将详细介绍 MySQL DCL 的基本概念,包括如何创建用户、授权和撤销权限等,同时提供示例代码以帮助您更好地理解。
626 2
|
机器学习/深度学习 算法 搜索推荐
深度学习之差分隐私
基于深度学习的差分隐私是一种在保护用户隐私的同时使用数据进行模型训练的技术。它的核心理念是通过加入随机噪声来隐藏个体数据的影响,防止在分析或模型训练过程中泄露个人信息。
1329 2
|
安全 Java 编译器
JDK8到JDK21版本升级的新特性问题之JDK17重要的新特性有哪些
JDK8到JDK21版本升级的新特性问题之JDK17重要的新特性有哪些
|
消息中间件 运维 Prometheus
小红书消息中间件的运维实践与治理之路
近年来,消息领域的全面云原生化逐渐走向深入,比如 RocketMQ 5.0 版本的存算分离设计和 raft 模式,再比如 Kafka3.0 引入了分层设计的方式(tiered storage)和 raft 模式,以及近年来新崛起的 Pulsar 也开始采用云原生架构,在未来都可以针对具体业务需求引入进行功能迭代,发挥组件的最大价值。
1298 101
小红书消息中间件的运维实践与治理之路
|
机器学习/深度学习 自然语言处理 搜索推荐
通义语音大模型评测:迈向更自然、更智能的语音交互
随着人工智能技术的迅猛发展,语音识别和自然语言处理领域不断涌现出新的模型和应用。阿里云推出的通义语音大模型,正是在这一背景下应运而生。本文将对通义语音大模型进行详细评测,探讨其技术架构、应用场景、性能表现以及未来发展前景。
1414 0