《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.5 第4阶段:模型建立

简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第2章,第2.5节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

2.5 第4阶段:模型建立

在第4阶段,数据科学团队需要创建用于训练、测试和生产环境的数据集。这些数据集中有一部分“训练数据”被数据科学家用于训练分析模型,另一部分“留存数据”或“测试数据”用于测试分析模型(具体细节将在第3章详细讨论)。在这个过程中,需要确保用于模型和分析的训练和测试数据集足够健壮。可以简单地认为,训练数据集用于运行模型的初始实验,然后测试数据集用于验证模型方法。

在建模阶段,如图2.6所示,一个分析模型是基于训练数据开发的,并用测试数据进行评估。模型规划和模型构建这两个阶段可能稍微重叠,并且在实践中可能在这两个阶段间来回反复,直到确定最终模型。

虽然开发模型所需要的建模技术和逻辑可能非常复杂,但是与准备数据和定义方法相比,该阶段花费的时间可能会较短。一般来说,更多的时间会花费在准备、学习数据(第1阶段和第2阶段)和演示结果(第5阶段)上。虽然看起来更加复杂,相比而言第3阶段和第4阶段一般较为短暂。


b0042e9d5dbe16d25b19c0e73f65794d48bd272b

在这个阶段,数据科学团队需要运行在第3阶段定义的模型。

在此阶段,用户运行分析软件包(如R或SAS)中的模型来测试文件提取和小数据集,以此评估模型在小规模数据上的有效性和结果。例如,确定模型是否适用于大部分数据并具有健壮的预测能力。这时可以通过改进模型来优化结果,比如适当修改变量输入或减少关联变量。在第3阶段,团队可能对关联变量或有问题的数据属性已经有所认知,并将在模型实际运行后对其予以证实或否定。当深入到构建模型和转换数据的细节时,常常需要做很多与建模的数据和方法相关的小决策。项目完成后这些细节很容易被忘记。因此,在这个阶段记录模型的结果和逻辑至关重要。此外,在建模过程中所做的任何有关数据或背景的假设也必须被悉心地记录。

为了创建用于特定场景的的健壮模型,需要深思熟虑,以确保开发的模型最终能够满足第1阶段提出的目标。需要考虑的问题包括下面这些。

  • 模型是否在测试数据上有效且准确?
  • 在领域专家看来,模型的输出和行为是否有意义?也就是说,模型给出的答案是否说得通?
  • 模型的参数值在业务背景下是否有意义?
  • 模型是否足够精确?
  • 模型是否避免了不可容忍的错误?例如,取决于场景,误报可能比漏报更严重,或者反过来(误报和漏报将在第3章和第7章进一步讲解)。
  • 是否需要更多输入数据?是否有输入需要进行转换或删减?
    所选择的模型是否满足运行要求?
  • 是否需要用模型的另一种形式来解决业务问题?如果是,回到模型计划阶段,修改建模方法。
    一旦数据科学团队可以判断出模型已经足够健壮,或者团队已经失败,就可以进入数据分析生命周期的下一个阶段。

2.5.1 模型构建阶段中的常用工具

在这个阶段有许多工具可以使用,主要侧重于统计分析或者数据挖掘软件。在这个阶段中常用的工具包括(但不限制于)下面几种。

商业工具。
SAS Enterprise Miner[17]允许用户在大量企业数据上运行预测性和描述性模型。它可以与其他大型数据存储相通,能与许多工具配合使用,适合企业级计算和分析。
SPSS Modeler[18](IBM公司出品,现在称为IBM SPSS Modeler)通过GUI探索和分析数据。
Matlab[19]提供了一种高级语言来运行各种数据分析、算法和数据探索。
Alpine Miner[11]为用户提供了GUI前端来开发分析工作流程,并在后端与大数据工具和平台进行交互。
STATISTICA[20]和Mathematica[21]是一种颇受欢迎且评价甚高的数据挖掘和分析工具。
免费或开源工具。
R和PL/R[14],R 在模型计划阶段描述过,PL/R是一种过程型语言,用于R和PostgreSQL的交互,即在数据库中执行R的命令。与在内存中运行R相比,这种技术提供了更高的性能和更好的可扩展性。
Octava[22],用于计算机建模的一款免费软件,能实现部分Matlab的功能。因为免费,它被用于许多大学的机器学习教学中。
WEKA[23]是一个带有分析工作台的免费数据挖掘软件包。WEKA中创建的函数可以在Java中运行。
Python是一种编程语言,提供了机器学习和分析工具包,比如scikit-learn、numpy、scipy、pandas和相关的数据可视化(基于matplotlib)。
SQL数据库内应用,比如MADlib[24],提供了一种内存桌面分析工具的替代方案。MADlib提供了一套开源的机器学习算法库,可运行在PostgreSQL或GreenPlum数据库系统内。

相关文章
|
3月前
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
132 2
|
3月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
53 4
|
3月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
144 0
|
2月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
ly~
|
3月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
313 2
|
5月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
124 2
|
5月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
130 9
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
|
6月前
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【7月更文挑战第25天】在数据科学中,模型评估是理解模型泛化能力的关键。对新手来说,众多评估指标可能令人困惑,但Scikit-learn简化了这一过程。
67 2
|
5月前
|
机器学习/深度学习 搜索推荐 数据挖掘
【深度解析】超越RMSE和MSE:揭秘更多机器学习模型性能指标,助你成为数据分析高手!
【8月更文挑战第17天】本文探讨机器学习模型评估中的关键性能指标。从均方误差(MSE)和均方根误差(RMSE)入手,这两种指标对较大预测偏差敏感,适用于回归任务。通过示例代码展示如何计算这些指标及其它如平均绝对误差(MAE)和决定系数(R²)。此外,文章还介绍了分类任务中的准确率、精确率、召回率和F1分数,并通过实例说明这些指标的计算方法。最后,强调根据应用场景选择合适的性能指标的重要性。
736 0

热门文章

最新文章