从事数据科学前必须知道的五件事儿

简介: 本文讲解了从事数据科学前应该了解的五件事情,主要是关于学习数据科学时候应该注意的一些事项。

目前,人工智能行业非常火热,对应的数据科学分析岗位需求非常大。很多程序员纷纷转行从事人工智能相关岗位,那么对于那些想从事数据科学岗位的人来说,这里有五件重要的事是在转岗之前需要了解的。

1.高等数学是数据科学的基础

矩阵计算、导数、特征值、集合、函数、向量、线性变换等数学知识对统计方法和编程背后的理论而言十分重要。因此,在开始你的MOOC课程或机器学习教材之前,你应该先自己检查一下这些数学知识的掌握程度。大多数学校要求学生毕业时候能够精通这些知识,如果你之前没有完全掌握这些知识的话,也不要担心,毕竟学习这些知识也不需要花费太多的时间。

目前,网络上面有很多资源可供学习。但是,对我而言,最有效的是资源是线性代数漫画指南,该指南非常简单,生动形象,由浅入深的讲解相关线性代数知识。

d3c61792ba20b9fd1cbed64bc50d393607cf75f9

我的建议是花费几个星期的时间将数学上的概念自查并弄明白可以采费曼技巧来解释每个概念。

注:费曼技巧很简单,首先拿张白纸,然后在白纸顶部写上你想理解的某想法或某过程,之后用自己的话解释它,就像你在教给别人这个想法。

2.最好的学习工具还是书籍

在试图进入某个新的领域时,类似于数据科学等领域,人们都会面临一个问题——信息过载。意思就是说有太多的资源可获取,但是不知道如何下手。比如各种公开课、专业讲座视频等,这些资源大多食之无味、弃之可惜。我认为最好的方法是选择一本好的教材,花时间将其啃透。从最基本的概念开始入手,逐渐全方位填充自己。

0c6cc82f11f51f179777eab8aaecbb0b52999732

根据本人亲身经历,以下这种方法(以拼接玩具为例)对那些想从事数据科学的人来说是非常有用的,而且我也相信以下种学习方法对学习大多数新知识都是有一定作用的。

首先,你需要选择想要构建的玩具模型;

其次,打开所有装有零部件的塑料袋,并将装的玩具部件全部放在一个平面上,这样你就可以看到所有不同的部分;

之后,了解每个零部件如何使用,关注每个零部件的特征:尺寸、颜色、重量及形状等;

然后,等你掌握所有零部件的用途后,开始逐渐尝试构建玩具模型;

最后,在遵循说明书并建立想要的模型后,把所有部分拆开并重新开始新的实验;

数据科学的各个领域都应该采用同样的技术——了解所有的部分是什么、然后学习如何使用它们,之后当你想创造更复杂的东西时,去寻找那些你没有的部分。

3.计算机技能是必不可少的

计算机技能是不可或缺的,这不仅是在数据科学领域,而且未来的科技也需要具备这方面的能力

当我作为一名数据科学专业的硕士时,我才意识到有些东西一直在隐蔽地通过博客文章、书籍和新闻传递下面信息:

计算机程序占据了我们日常生活80%”

程序无处不在,我们日常生活中接触到的智能手机、网站、汽车、电视、医疗系统、公共交通、商品制造等领域中都存在程序控制。

c3b186c6d89f6aa60e1ed0434ea1946a36d9246a

几乎所有行业中的每一个工作/职业都受到程序的直接影响,程序可用实现信息的输入、转换和打印过程。学习编程以及编译原理不仅仅是制作软件、应用程序或创建网站所需要掌握的,将使你有机会了解科技是如何影响我们的生活。不要把计算机程序归咎于人们情愿工作,而是系统地思考问题所在。

4.批判性和分析能力非常重要

我非常喜欢有关犯罪和破案的电视节目,其中一个电视节目是《天蝎》,主要讲述的是一帮天才利用技术和数学技巧解决各种问题的故事。除了所有动作打斗、搞笑等场景外,这类节目的最精彩部分正是主角们使用批判性思维为不同的问题找到解决的方法,这是大多数数据科学资源中没有提到的一件事。找到正确的角度来处理问题的能力将使你不仅能够判断使用哪些工具用来解决对应的问题,而且有时候会引导你找到最有效的解决方案。

5.选择合适的工具

有许多可视化软件包(seaborngbplotmatplotlib)和软件(tableauexcel)可以帮助创造绝妙的图表。数据分析的重点不在于挑选多么复杂的软件包,最重要的如何传递这些数据信息。因此需要在工作中避免过多的选项,有时候最简单的工具会产生清晰明了的结果。


数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

Pedro Lopez,数据科学家,专注于金融、智能商业。

个人主页www.iampedrolopez.com

文章原标题《5 Things to Know Before Rushing to Start in Data Science》,作者:Pedro Lopez,译者:海棠,审阅:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
12天前
|
数据采集 机器学习/深度学习 数据可视化
数据科学面试准备:解决Python数据分析常见问答和挑战
【4月更文挑战第12天】本文介绍了Python数据分析面试中常见的问题和挑战,涉及Pandas、NumPy、Matplotlib等库的基础知识,以及数据预处理、探索性分析、可视化、回归分析和分类分析的方法。例如,使用Pandas处理缺失值和异常值,利用Matplotlib和Seaborn进行数据可视化,通过Scikit-learn进行回归和分类模型的构建。
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
【数据科学】反思十年数据科学和可视化工具的未来
【数据科学】反思十年数据科学和可视化工具的未来
|
11月前
|
机器学习/深度学习 人工智能 算法
【数据科学】数据科学难题,怎么解释到底什么是数据科学
【数据科学】数据科学难题,怎么解释到底什么是数据科学
|
11月前
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习
初入数据科学领域,你需要有七个这样的思维
当数据科学家加入一家公司的时候,做事的思想往往是最重要的!
1737 0
|
机器学习/深度学习 算法 数据挖掘
数据科学入门三个月的一些随想
回顾了入门Data Science以来的一些所思所想。
2003 0
|
数据挖掘
如何打造数据科学团队,你想知道的都在这里
本文的两位作者分别是 Instacart 负责数据科学业务的副总裁 Jeremy Stanley,以及技术顾问、LinkedIn 前数据业务负责人 Daniel Tunkelang。
1506 0
|
机器学习/深度学习 数据可视化 数据挖掘
数据科学求职建议:掌握5种类型的数据科学项目
本文介绍数据科学求职应该掌握的五个相关项目,以便秋招者对应自身情况查漏补缺。
4418 0
|
机器学习/深度学习 Python
文科生如何高效学数据科学?
看似无边无际、高深难懂而又时刻更新的数据科学知识,该怎样学才更高效呢?希望读过本文后,你能获得一些帮助。 疑惑 周五下午,我给自己的研究生开组会。
1450 0
|
分布式计算 数据可视化 大数据