GBDT入门学习

简介: 决策树A decision tree is a machine learning model that builds upon iteratively asking questions to partition data and reach a solution.结点:feature分支:决策叶子:结果痛点:过拟合     即在validation dataset 上表现好,但在test data

决策树

A decision tree is a machine learning model that builds upon iteratively asking questions to partition data and reach a solution.

结点:feature

分支:决策

叶子:结果

痛点:

过拟合     即在validation dataset 上表现好,但在test dataset上表现差

Ensemble Learning集成学习

a model that makes predictions based on a number of different models. 

优点:由于集成不同模型,集成学习更灵活(小偏差),更少的数据敏感(小方差)

两个最流行的集成方法:

  • bagging (并行训) Random Forest : 每个树在随机子集上训练,结果取平均

Training a bunch of models in parallel way. Each model learns from a random subset of the data.

  • boosting (顺序训) GBDT

Training a bunch of models sequentially. Each model learns from the mistakes of the previous model.

GBDT

weak learner : perform only slightly better than a random chance.

每一步的重点是构造出新的weak learner去处理剩余的困难的观测。

gbdt所借鉴的算法:Adaboost

weak learner : decision stumps(Decision stumps are decision trees with only a single split.)并对难分类的实例加权较高,易分类的实例加权较少。

the final result was average of weighted outputs from all individual learners. 结果加权平均

GB算法与之的区别:优化损失函数代替加权平均

it uses a loss function to minimize loss and converge upon a final output value. The loss function optimization is done using gradient descent

GBDT的weak learner:决策树

优点:准确度较高

缺点:由于串行的方式,学习速度缓慢

检测residual残差:a loss function

  • mse : 回归
  • log loss : 分类

超参

  • Learning rate:每次对已有模型修改的大小由学习率控制
  • n_estimators:使用的树的数量 使用太多树容易过拟合

GBDT对超参很敏感,而随机森林,树多了,则不会过拟合,因为其是并行的方式

对GBDT过拟合的改进方法:

  • 随机梯度下降:子采样
  • 小的学习率:0.1~0.3
  • 正则化
  • 树约束:
  • 树的数量
  • 树的深度:4-8
  • 每层的最小损失提升
  • 没个划分的观测数量 即样本数

参考:

相关文章
|
Go
这个报错是因为在构建chaosblade时,找不到crypto/ecdh模块
【1月更文挑战第22天】【1月更文挑战第110篇】这个报错是因为在构建chaosblade时,找不到crypto/ecdh模块
483 6
|
5月前
|
JSON 监控 API
深度解析淘宝天猫店铺所有商品API接口,一文带你吃透
本文介绍如何通过淘宝开放平台的API获取店铺所有商品信息,适用于电商数据分析、竞品监控等场景。核心接口为`tb.items.onsale.get`(出售中商品)和`tb.items.inventory.get`(库存商品列表)。接口采用HTTP POST请求,返回JSON格式数据,包含商品总数、列表及各商品的ID、标题、价格、图片URL等关键信息,并提供Python实现示例,助力开发者高效获取与处理数据。
|
机器学习/深度学习 存储 物联网
深度学习模型的优化与部署
【8月更文第18天】随着深度学习技术的发展,模型规模变得越来越大,这对计算资源的要求也越来越高。为了能够在资源有限的边缘设备(如智能手机、物联网设备)上运行复杂的深度学习模型,我们需要采用一系列优化方法来减少模型大小和计算复杂度。本文将介绍几种常用的模型优化技术,并讨论如何在边缘设备或云端服务器上部署这些优化后的模型。
460 0
|
监控 JavaScript 前端开发
Vue组件与路由精通指南:深入解析组件化开发与路由管理
Vue组件和路由详解:组件是应用的基石,用于封装可重用代码,可扩展HTML元素。动态组件根据需求切换。父子组件间通过props单向数据流通信,子组件使用`$emit`触发父组件方法。Vue Router提供`router.push`、`.replace`、`.go`等方法管理导航,`$route`对象包含`path`、`params`、`query`等信息。路由钩子如`beforeEach`允许在导航发生时执行逻辑。
|
存储 BI
建筑工地环境监测系统的作用和功能,了解一下!
智慧工地环境监测系统具有以下功能: 1、支持接入政府环保平台,对PM2.5、PM10、TSP、风速、风向、温度、湿 度、气压、噪声等数据进行实时在线监测; 2、实现对降尘喷淋设施的定时,联动自动控制; 3、当扬尘噪声超标时实现现场声光报警及平台通知报警;
334 1
|
JSON 前端开发 JavaScript
ES6 Promise 详解
ES6新特性 Promise详解。
256 0
|
数据可视化 Java 数据库
使用POI+hutool导入Excel并把内容添加到数据库中,直接可以用!!!
一、需求 经理:小王,你来把这个Excel的数据导入到数据库中.maven包你自己选个熟悉的就行! 小王:好的,经理(内心可视化工具也可以导入,哈哈,但是咱是Java开发人员,要用程序实现)
483 1
使用POI+hutool导入Excel并把内容添加到数据库中,直接可以用!!!
|
PHP
彩虹外链网盘美化版
一款PHP网盘与外链分享程序,支持所有格式文件的上传,可以生成文件外链、图片外链、音乐视频外链,生成外链同时自动生成相应的UBB代码和HTML代码,还可支持文本、图片、音乐、视频在线预览,这不仅仅是一个网盘,更是一个图床亦或是音乐在线试听网站。新版本增加了图片违规检测,对接阿里云内容安全服务。
603 0
彩虹外链网盘美化版
|
网络协议 Linux iOS开发
Docker:MacOS环境下修改容器的端口号
Docker:MacOS环境下修改容器的端口号
761 0
|
Ubuntu Linux
Ubuntu 20.04.3 LTS - 安装 Visual Studio Code
Ubuntu 20.04.3 LTS - 安装 Visual Studio Code
828 0
Ubuntu 20.04.3 LTS - 安装 Visual Studio Code