《数据科学家访谈录》读书笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 《数据科学家访谈录》  【美】Carl Shan(单研) 、William Chen(陈子蔚) 、Henry Wang(汪强明)  Max Song(宋迈思)著 点击封面购买纸书 一、本书内容的介绍 《数据科学家访谈录》是一本对当前全球最知名的25位数据科学家的深度采访,然后汇聚成册的访谈录,读者可以从中学习到这25位数据科学领域的大师的个人经历及其成长过程,以及在各自的职业生涯所面临的各种选项时所做出的选择,具有很高的参考价值。

8306f6063855869e903ecd3375e5882318b7fd9f

数据科学家访谈录

 【美】Carl Shan(单研) 、William Chen(陈子蔚) 、Henry Wang(汪强明) 

Max Song(宋迈思)著


点击封面购买纸书


一、本书内容的介绍

《数据科学家访谈录》是一本对当前全球最知名的25位数据科学家的深度采访,然后汇聚成册的访谈录,读者可以从中学习到这25位数据科学领域的大师的个人经历及其成长过程,以及在各自的职业生涯所面临的各种选项时所做出的选择,具有很高的参考价值。

这25位数据科学家大都拥有国外名校的博士学历文凭,但是大都不想继续从事科研工作,而是希望能够将自己的科学研究成果应用到现实生活当中,从而让人们的生活变得更加美好,因此他们大都从学术界走向了工业界,这些大师从学术领域向工业领域转变的经历和过程非常值得学习和参考。虽然他们的专业研究领域各不相同,但数据科学这个研究方向把他们联系到一起,共同推动了数据科学领域的发展。他们各自所拥有的领域知识以及计算机专业技能,帮助他们在各自的研究应用领域获得丰硕成果,这也从另外一个方面验证了数据科学其实是一门理论与实践相结合的科学。

此外,本书当中这些大师们给出的方法论和经验也同样非常值得读者学习和思考。比如去大公司还是小公司的问题,Hillary认为应该是去那些能让你学到很多东西并且快速成长的公司。再比如做事情是从简单的开始还是复杂的做起,DJ认为做事情要从简单的开始做起,然后慢慢开始做复杂而又艰难的事情。这样子做事情就会有一个好的开始,进而一步一步的完成。

总的来说,《数据科学家访谈录》是一本经得起时间考验的好书,处于各种不同阶段的人群都可以从本书当中获取知识和经验,而且每次阅读都会有新的认识和收获。

二、数据科学的组成

1、数学相关的基础知识(85%): 包含了线性代数、概率论、微积分、统计学(工具)、机器学习(算法)等内容。

2、编程基础技能(15%): 1)SQL/NoSQL 2)Hadoop/Spark 3)R 4)主流编程语言,比如:C++/Java 5)主流脚本语言,比如:Python 6)Excel

三、数据科学的步骤

1、 获取数据 通过数据库、web接口、网络爬虫等获取网络上的数据(结构化和非结构化数据)。

2、 清洗数据 通过数值化、降维等手段去除数据噪音,实现数据的清洗。

3、 探索数据 在数据清洗工作的基础上,通过变量分析、处理缺失值、处理离群值等手段对数据进行初步的探索。

4、 数据建模 在探索数据工作的基础上,通过数学等工具建立合适的数据模型。有人认为好的数据模型是数据科学当中最核心的步骤,列出的优先级顺序是:高质量的数据>数据规模>好的数据模型。

5、 解释数据 数据可视化(D3、highcharts),通过可视化的web界面把数据和结论表达出来。

四、数据科学与大数据、人工智能的关系

大数据是一个内涵丰富的词汇,包含了技术、商业等因素的描绘,而数据科学是作为一门实实在在的应用科学而存在,是实现大数据应用的基础应用型学科,人工智能则是在数据科学的基础之上,向着让机器或程序有着类似人类智能的方向前进。因此数据科学是实现大数据的工具,是实现人工智能的基础。

数据科学也是一门理论与实践相结合的学科,并且有着与其它领域相互结合、共同发展的趋势。随着数据科学问题的规模越来越大,现代科研和应用更加强调拥有多领域、多学科背景的人进行团队合作,因此数据科学也有着软件工程的特征。

人工智能的基础是大数据(数据科学),大数据(数据科学)的基础是云计算。当前大数据技术已经与人工智能技术紧密结合,让各种程序和系统更加智能,从而进一步影响我们的生活。

五、推荐资源

1)《集体智慧编程》 2)kaggle https://www.kaggle.com/,机器学习竞赛、编写和分享代码的平台 3)Quora 获取和分享知识的平台,类似于知乎 4)吴恩达的机器学习视频课程,https://www.coursera.org/learn/machine-learning

延伸推荐

2018年1月重磅新书

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

政策升温:大家都在学大数据,一大波好书推荐

一本基于Python语言的Selenium自动化测试书

8本新书,送出一本你喜欢的

AI经典书单| 入门人工智能该读哪些书?

点击关键词阅读更多新书:

Python|机器学习|Kotlin|Java|移动开发|机器人|有奖活动|Web前端|书单

095d751c037a00e8c6698aee1f67bd6521b63208


异步图书”后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步图书一本。赶紧来参加哦!

点击阅读原文,查看本书更多信息

扫一扫上方二维码,回复“关注”参与活动!

2157aef64ee7aa989b872bc0d09fa1262fd0c0d0

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
数据采集 人工智能 自然语言处理
大模型发展亟需高质量“教材”相伴
【1月更文挑战第20天】大模型发展亟需高质量“教材”相伴
72 2
大模型发展亟需高质量“教材”相伴
|
存储 架构师 算法
大数据架构建模群大咖研讨实录-20210406
大数据架构建模群大咖研讨实录-20210406
|
机器学习/深度学习 数据采集 算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
291 0
|
前端开发 决策智能
博弈论(二)——枪法最差的产品经理如何战胜枪法最好的工程师
博弈论(二)——枪法最差的产品经理如何战胜枪法最好的工程师
87 0
|
机器学习/深度学习 人工智能 算法框架/工具
机器学习应用行业浮躁、产品差?身为工程师的你是否想转行
十几个小时前,一位机器学习工程师在 reddit 上发帖求助:ML 领域浮躁、门槛低、产品差,无法专心做东西,该不该换个领域?帖子一经发布,立刻引起了大量讨论。
156 0
机器学习应用行业浮躁、产品差?身为工程师的你是否想转行
|
Python
《数据科学家访谈录》总结·2
01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - 10:Clare Corthell, Drew Conway, Kevin Novak, C...
1400 0

热门文章

最新文章