入门 | 做数据科学如烤蛋糕?不服来看

简介:

面部识别、自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

我们想知道它们都是怎么工作的。「这全是人工智能。」是的。但我们想知道更多。

数据科学、人工智能、大数据、机器学习等都是最近的热门词汇。它们大多与谷歌、苹果和亚马逊等大型科技公司有关。

幸运的是,你不用成为一名数据科学家就能对数据科学有所了解。只要你对此热爱、好奇即可。

什么是数据科学?

要事第一!

7b4647014255c6ac2e178ef455ca4b630770cecc

向亚马逊的聊天机器人寻求答案

数据科学使用数学和不同的机器学习方法(也称算法)来实现不同目的。

机器学习(ML)是编写计算机程序的科学和艺术,它使计算机具有了学习能力。你的计算机现在可以从它观察到的数据中学习,而不是像在传统计算机程序中那样盲目地遵循一套固定规则。你骂电脑是笨蛋的日子一去不复返了。

但是数据科学在哪里发挥作用呢?就在我们身边。Facebook 给你推荐可能认识的人、Youtube 预测股票市场价格的推荐系统,都需要数据科学。

数据科学按照一系列步骤来获得这些答案,而使用机器学习算法只是其中之一。

数据科学流程综述

我们要明白这样一个事实:无论电脑学什么,它都是从数据中学习。将数据视为配料、数据预处理视为食谱、机器学习算法视为烤箱、最终结果视为蛋糕。蛋糕的美味程度取决于原料的质量、食谱和烤箱温度设置。同样地,数据的质量非常重要,你采用的方法也是如此。

1ff5452b57ab83b1b3e45478a826860dd4123f2c

数据科学流程抽象图

数据和数据预处理

因此,第一步是收集数据并进行处理。就像你要买食材一样。

还需要确保数据与将要解决的问题相关。弄清楚需要多少数据,以及数据的形式(或格式),就像做蛋糕你要方糖还是砂糖?真实世界的数据集通常以表格形式显示,例如.xls、.csv 或.json 等。

有大量不同的算法可以帮助你进行数据清理和预处理。训练模型的数据会极大地影响模型性能。就像食谱决定蛋糕的味道。

数据集类型

数据集是以适当格式收集所有示例的集合。它可以是一个*标注的*数据集,也可以是一个*未标注的*数据集。

标注的数据集是指具有特征值及其结果的数据集。而未标注的数据集中只有特征值。

特征好比不同的食材,如:牛奶、黄油、糖和鸡蛋是四个不同的特征。这些特征的结果是一个蛋糕。是特征帮你得到结果。

这是真实数据集的样子:

1cbbe627705ed452a89ea1b0fdd51145ce451cb0

用于预测房价的标注数据集

选择机器学习算法

一旦数据集准备好了,就该使用机器学习算法了。这就是把蛋糕糊放进烤箱。

数据集和标签帮助你确定使用哪种算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也会改变。

d571ee05ba0b6691cf65c634323c5ec20426bc51

可供选择的算法

训练、测试、预测!

只学习测试中会出现的题目,你绝对会通过测试。但遇到没见过的题,就不会考得很好了。我们希望模型即使在没见过的例子上也能表现得很好。为了确保这一点,我们采用了一种技术。

我们将数据集分为两组:训练集和测试集。通常以 7:3 的比例来划分,这样有利于训练。

我们的模型仅从训练集的例子中学习。这样划分数据集可以帮助我们评估模型表现,明确提升空间。

4dd1325477961910e3c4f89a3fb2ff524b93f3fc

训练-测试分解图

测试很简单。你问,模型答,然后给模型打分。它起作用是因为你是在未见过的例子上评估模型。通过的标准取决于你的需求。通常 80% 的通过率是可以达到的。

如果模型在第一次尝试中失败,不要失望,因为在最初的尝试中失败是很正常的。这是因为开始时你总是使用较简单的方法,然后根据测试得分,逐渐增加解决方案的复杂性。但在此之前,请重新评估你的数据集以及它的预处理方式。重复此过程,直到模型通过测试。

b8ef7624513d14265b9c1690614609edf1eca90d

测试模型

一旦模型通过测试,就可以投入使用。换句话说,它为实时预测做好了准备。

提示:保持测试集中的数据模式与训练集中的数据模式相同。

数据可视化

既然你已经烤好了蛋糕,而且看起来很好吃,那就该上桌了。也许可以加一些糖霜,把它放在一个漂亮的托盘里等等。让它看起来更美味。

这就是数据可视化。通过制作图表,你可以利用不同的数据可视化技术向受众传达你对数据的理解。数据可视化可以在任何阶段进行,你可以在训练集中绘制现有的基础图案。

d465bd48f7508c168c9aa6b734d2bbf156bb4f5b

就像我说的,你不用成为数据科学家就能对数据科学有所了解。希望你喜欢我刚烤好的


原文发布时间为:2018-10-16

本文作者:Azika Amelia

本文来自云栖社区合作伙伴“CDA数据分析师”,了解相关信息可以关注“CDA数据分析师”。

相关文章
|
机器学习/深度学习 Python
pandas将dataframe列中的list转换为多列
在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。
299 0
|
小程序 前端开发 API
微信小程序全栈开发中的异常处理与日志记录
【4月更文挑战第12天】本文探讨了微信小程序全栈开发中的异常处理和日志记录,强调其对确保应用稳定性和用户体验的重要性。异常处理涵盖前端(网络、页面跳转、用户输入、逻辑异常)和后端(数据库、API、业务逻辑)方面;日志记录则关注关键操作和异常情况的追踪。实践中,前端可利用try-catch处理异常,后端借助日志框架记录异常,同时采用集中式日志管理工具提升分析效率。开发者应注意安全性、性能和团队协作,以优化异常处理与日志记录流程。
431 0
|
XML 数据可视化 安全
IIS中的URL Rewrite模块功能学习总结
IIS中的URL Rewrite模块功能学习总结
550 0
IIS中的URL Rewrite模块功能学习总结
|
11月前
|
消息中间件 存储 Apache
探索 RocketMQ:企业级消息中间件的选择与应用
RocketMQ 是一个高性能、高可靠、可扩展的分布式消息中间件,它是由阿里巴巴开发并贡献给 Apache 软件基金会的一个开源项目。RocketMQ 主要用于处理大规模、高吞吐量、低延迟的消息传递,它是一个轻量级的、功能强大的消息队列系统,广泛应用于金融、电商、日志系统、数据分析等领域。
1037 0
探索 RocketMQ:企业级消息中间件的选择与应用
|
运维 测试技术 Linux
关于Stress 压力测试工具的介绍与使用
在日益复杂的计算环境中,保证系统的稳定性和性能成为了每个Linux管理员的核心任务。面对不断增长的数据量和业务需求,如何有效评估系统极限和潜在瓶颈? 压力测试工具:stress,成为了不可或缺的助手。这篇记录描述stress工具的使用方法及其在模拟真实负载中的实用性。
关于Stress 压力测试工具的介绍与使用
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的刷题系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的刷题系统的详细设计和实现(源码+lw+部署文档+讲解等)
323 0
|
前端开发 JavaScript 容器
Bootstrap 5 保姆级教程(十五):表单
Bootstrap 5 保姆级教程(十五):表单
|
Ubuntu 关系型数据库 MySQL
Mysql Access denied for user ‘root‘@ ‘*.*.*.*‘ (using password: YES)异常处理
Mysql Access denied for user ‘root‘@ ‘*.*.*.*‘ (using password: YES)异常处理
490 0
Mysql Access denied for user ‘root‘@ ‘*.*.*.*‘ (using password: YES)异常处理
|
SQL Java 数据库连接
【异常】Cause: java.sql.SQLException: Invalid value for getInt()
java.sql.SQLException: Invalid value for getInt()
425 1
|
存储 数据可视化 数据挖掘
MySQL数据分析实战:销售和用户行为分析案例分享
MySQL是一种常用的关系型数据库管理系统,可以用来存储和管理大量的数据。除了存储数据,MySQL还可以用来进行数据分析。在本文中,我将介绍如何使用MySQL进行数据分析,并提供一些实际的示例。
2391 3