天龙八步:8步让你变成数据科学家

简介:

OK, 这些步骤不是那么简单。但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间。


首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。



第一步:学好统计、数学和机器学习

数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习


第二步:学习编写代码

掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。



第三步:理解数据库

作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。


第四步:掌握数据整理、可视化和报表制作

1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。

2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。



第五步:提升到大数据级别

当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。



第六步:获得经验、实践,结交大牛

[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。



第七步:实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。


第八步:关注并参与社区

关注网站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;关注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据?上quandl看看。



完整信息图






原文发布时间为:2015-03-22

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
Ubuntu 安全 Linux
CentOS与Ubuntu
CentOS与Ubuntu代表两种开源哲学:前者稳重如山,追求企业级稳定;后者灵动如水,倡导快速创新。源自RHEL与Debian的不同血脉,塑造了它们在更新策略、安全机制与生态定位上的鲜明对比。CentOS深耕传统服务器领域,Ubuntu则领跑云原生与开发者社区。尽管技术趋同日益明显,二者仍以不同方式诠释着自由软件的多样性与包容性,共同推动Linux生态繁荣发展。
|
Ubuntu
Ubuntu系统镜像下载,国内镜像站大全(山大/清华/阿里/浙大/中科大...)
装Ubuntu,是很多理工科同学入门的第一个挑战,首先我们就需要找到一个能用的iso镜像,根据你的网络环境的不同,不同的站点下载速度会不一样,下面列举一下几个比较好用的,都是来自Ubuntu官方推荐镜像站链接导航国内分区
26394 1
|
存储 人工智能 关系型数据库
使用 PostgreSQL pgvector 的 AI 应用程序中的多模态搜索
大型语言模型(LLM)的发展已拓展至多模态领域,不仅能处理文本,还能解析图像。本文介绍如何构建一个多模态搜索应用,用户可通过上传图片或输入文本来搜索印度菜谱。该应用支持多种LLM服务,如OpenAI及Ollama本地部署模型,并运用pgvector扩展在PostgreSQL中高效存储和检索向量嵌入。我们还展示了如何生成菜谱描述的嵌入并向数据库写入这些嵌入,以及如何通过API接口结合文本和图像查询来获取最相关的菜谱结果。此外,讨论了使用分布式SQL数据库如YugabyteDB增强应用的可扩展性和健壮性。
716 1
|
Android开发 数据格式 XML
Android轻便易用的文件选择器ExFilePicker
 Android轻便易用的文件选择器ExFilePicker 在新版的Android中(如Android 7.0+),文件选择由于权限限制,Uri变化,文件资源路径格式改版等等,变得比较复杂起来,比如,得在Androidmanifest配置FileProvider完了还得写xml目录下的文件path这些等等。
2141 0
|
11天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3272 9
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3327 23
|
7天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2357 4
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
26天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23598 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」

热门文章

最新文章