天龙八部:一张图告诉你如何8步炼成数据科学家

简介:




如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。


OK, 这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。


接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤。拿好不谢~


首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。



第一步:学好统计、数学和机器学习

数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习


第二步:学习编写代码

掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。



第三步:理解数据库

作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。


第四步:掌握数据整理、可视化和报表制作

1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。

2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。



第五步:提升到大数据级别

当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。


第六步:获得经验、实践,结交大牛

[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。



第七步:实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。


第八步:关注并参与社区


原文发布时间为:2016-07-26

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
2月前
|
机器学习/深度学习 算法 算法框架/工具
基于yolov8的深度学习垃圾分类检测系统
本研究针对传统垃圾分类效率低、准确率不高等问题,提出基于YOLOv8与Python的深度学习检测系统。通过构建高质量标注数据集,利用YOLOv8强大的目标检测能力,实现垃圾的快速精准识别,提升分类自动化水平,助力环境保护与资源回收。
|
2月前
|
弹性计算 搜索推荐 异构计算
阿里云服务器多少钱一年?2025年12月最新价格38元、99元和199元配置详解
阿里云2025年特价服务器汇总:轻量应用服务器38元/年起,2核2G ECS仅99元/年,2核4G 5M带宽199元/年,4核16G 10M带宽89元/月,8核32G 160元/月,香港轻量25元/月起,爆款低至1折,新老用户同享,续费同价,限时秒杀速抢!
532 1
|
6月前
|
数据采集 算法 数据挖掘
MyEMS:2025 年能源管理系统性价比之巅的实力担当
在全球节能减排趋势下,MyEMS凭借高效能、低成本和智能化管理,成为2025年备受推崇的能源管理系统,助力工业、商业、医疗等多领域实现节能降本与可持续发展。
170 0
半小时速通Python爬虫!GitHub开源的Python爬虫入门教程
今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。
|
SQL Apache 流计算
Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手册(二)
为大家介绍 Lakehouse 使用手册(二)之 Apache Doris + Apache Paimon 搭建指南。
714 8
|
域名解析 网络协议 安全
【域名解析DNS专栏】DNS-over-TLS与DNS-over-HTTPS:安全升级新标准
【5月更文挑战第26天】随着网络技术的发展,DNS协议面临安全挑战,DNS-over-TLS (DoT) 和 DNS-over-HTTPS (DoH) 作为解决方案出现,旨在通过加密增强隐私和安全。DoT使用TLS封装DNS查询,防止流量被窥探或篡改;DoH则利用HTTPS隐藏DNS查询。实施DoT需在客户端和服务器间建立TLS连接,DoH需DNS服务器支持HTTPS接口。这两种技术为网络安全提供支持,未来有望更广泛部署,提升网络环境的安全性。
1995 0
|
存储 前端开发 Java
springboot中的第二个IOC容器BootstrapContext
springboot中的第二个IOC容器BootstrapContext
springboot中的第二个IOC容器BootstrapContext
|
存储 运维 监控
大数据分析平台之 OLAP 架构的最佳实践
本文将分享聚水潭云原生 OLAP 架构的最佳实践。
|
测试技术 数据安全/隐私保护 Java
基于SpringBoot+Vue+uniapp的公司进销存管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的公司进销存管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
295 0

热门文章

最新文章