Kaggle 教程系列:机器学习模型是如何工作的?

简介: Kaggle公司是由联合创始人兼首席执行官AnthonyGoldbloom2010年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,Notebook主要支持Python和R。

Kaggle公司是由联合创始人兼首席执行官AnthonyGoldbloom2010年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,Notebook主要支持Python和R。

就我个人来说,我非常喜欢这个平台,它不仅提供了大量的数据集和教程供我们学习,还为每人免费配备了一定的CPU、内存和磁盘资源,并且在交互界面上也非常的赏心悦目。

反观国内的几大平台,PAI需要购买计算资源,存储资源,DC一没有在线分析的资源,提交结果还需要实名认证更是反人类的设定;DC学院提供的课程9.9到699不等,并显得杂乱无章。

介绍

本文来自于Kaggle的官方教程翻译,由于图片不便于翻译,故需要读者略懂一些英文术语。

本文将介绍一个机器学习的模型是如何工作,以及如何使用它们来为我们服务,如果您已经具备这些知识,请跳过本文。

本次课程,我们将一起构建以下场景的模型:

您的堂兄花了数百万投资房地产;他您是所有亲戚里面的数据科学方面的专家,他希望与你一起合作,由他提供资金,而您需要预测各种房屋价格,为他的投资提供建议和决策。

通过餐桌上的交流,堂兄表示以前一直是靠直觉在预测房地产的价值,但睿智的你通过观察发现真相只有一个:他有一套通过旧房地产的价值数据预测新房价的潜在模型,只不过他自己没有意识到。

这就与机器学习的工作方式相似了,我们将从一个名为“决策树”的模型开始,虽然有更高级的模型可以提供更为准确的预测,但决策树相对简单、更容易理解,它是数据科学中一些优秀模型的基础结构。

简单决策树

下图是一颗倒过来的树,嗯,你可以伸出手指,比出剪刀手,然后翻过来,它表示通过一个决定,将产生两种结果。

img_c8cae410b291e87cf361ba9ea028aa4c.png
简单决策树

它将房屋分为两类,而房屋的预测目标则是同一类型房屋的历史平均价。

模型训练

我们使用历史数据来决定如何对房屋进行分类,然后再确定每一类的价格。这一步我们称为拟合或训练模型,用于拟合模型的数据称为训练数据。在代码中通常以train表示,而用于训练的变量为X_train,目标变量为Y_train

模型训练的步骤比较复杂,我们通常是调用现有的科学计算库来完成,并在训练完成后保存它。

数据预测

根据上一步得到训练好的模型,我们将需要预测的新房数据输入,通过模型预测出新房的目标价格。

改进决策树

通过对历史数据的预测,我们的决策树将如何进行选择?

img_d7702bafddd4355fe9f66e520df603f6.png
问题?

当然,只要不傻,我们肯定是选择左侧的树(谁说要选右侧的,请给我来10套这样的房子),因为现实是拥有更多房间的房子更贵。

但是,只通过房间数量来标定一个房价太过儿戏,我们买房通常还要考虑交通、房龄、位置、环境等因素。

这时候,我们要增加树的深度,以进行更多条件的判断:

img_bc8b997b1af5cab7bb43d8b1cf78c4af.png
两层决策数

上面这个树,在房间的基础上增加了对面积的判断,通过训练数据的特征,逐级选择相应的路径,最后达到底部的叶子节点,即是我们需要的预测结果。

原文链接

https://www.kaggle.com/dansbecker/how-models-work

PS: 打开此链接需要一些技术手段

相关文章
|
16天前
|
机器学习/深度学习 数据挖掘 数据处理
构建高效机器学习模型的五大策略
【5月更文挑战第31天】 在数据驱动的时代,机器学习已成为创新的核心动力。本文将深入探讨如何构建高效的机器学习模型,涵盖数据处理、特征工程、模型选择、调参技巧及模型评估五个关键策略。不同于常规摘要的形式,我们将通过具体实例和案例分析,提供一套实操性强的方法论,帮助读者在实际工作中提升模型性能,解决业务问题。
|
16天前
|
机器学习/深度学习 运维 Cloud Native
构建未来:云原生架构在企业数字化转型中的关键作用构建高效机器学习模型的五大策略
【5月更文挑战第31天】 随着企业数字化进程的加速,传统的IT架构日益显示出其局限性。本文将探讨云原生架构如何成为推动企业敏捷性、可扩展性和创新能力的核心力量。通过深入分析云原生技术的基本原理及其在业务连续性、资源优化和跨云协作方面的应用,揭示了其在实现高效、灵活的企业IT环境中所扮演的角色。
|
21小时前
|
机器学习/深度学习 数据采集 监控
算法金 | 选择最佳机器学习模型的 10 步指南
许多刚入门的学习者也面临着相似的挑战,特别是在项目启动初期的方向确定和结构规划上。本文意在提供一份全面指南,助你以正确的方法开展项目。 遵循本文提供的每一步至关重要(虽有少数例外)。就像不做饭或点餐就无法享用美食一样,不亲自动手构建模型,就无法实现模型部署。
20 7
算法金 | 选择最佳机器学习模型的 10 步指南
|
4天前
|
机器学习/深度学习
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
|
4天前
|
机器学习/深度学习 数据可视化 关系型数据库
基于机器学习的信用卡办卡意愿模型预测项目
基于机器学习的信用卡办卡意愿模型预测项目
|
5天前
|
机器学习/深度学习 人工智能 算法
人工智能平台PAI产品使用合集之多目标模型eval比较耗时间,该如何优化
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何删除oss路径上特定的模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 网络安全
人工智能平台PAI产品使用合集之在本地可以成功进入模型流,但在服务器上无法进入,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink是否加载预训练好的pytorch模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。