开发者社区> 技术小能手> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

书单推荐 | 数据挖掘和统计科学自学十大必备读物

简介: 本文讲的是书单推荐 | 数据挖掘和统计科学自学十大必备读物,下面的免费书单中从统计学基础知识,到机器学习的基本概念,再到更重点的大框架内容,对于高深的话题也有所涉猎,最后以一本总结性的书结尾。既有经典名著,也有当代的作品,希望你能在其中找到一些有趣的新内容。
+关注继续查看

本文讲的是书单推荐 | 数据挖掘和统计科学自学十大必备读物

image


还有什么比免费的机器学习和数据科学读物更适合用来享受秋天的呢?

下面的免费书单中从统计学基础知识,到机器学习的基本概念,再到更重点的大框架内容,对于高深的话题也有所涉猎,最后以一本总结性的书结尾。既有经典名著,也有当代的作品,希望你能在其中找到一些有趣的新内容。


image


1.用统计学的方式思考

Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey

《用统计学的方式思考》是为python的程序员设计的一本概率论和数理统计知识的入门书籍。

本书主要介绍了剖析真实数据集和解决有趣问题的简单方法。这本书的案例使用的是美国国家卫生研究院的数据,并鼓励读者使用真实的数据集做项目。

地址:
http://www.greenteapress.com/thinkstats/

2.概率编程与贝叶斯方法
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon

一本介绍贝叶斯方法和概率编程的入门教程,主要是从对编程的理解出发,数学知识其次。

贝叶斯方法是概率推理中一种很实用的方法,在这本书当中,贝叶斯方法一直隐藏在一章章慢慢的数学分析的背后。贝叶斯推理的典型内容包含两到三章概率论知识,然后再介绍贝叶斯推理。可惜的是,由于大多数贝叶斯模型的数学难度太高,这本书中只为读者介绍了简单和虚构的例子。这会让读者小看贝叶斯推理。而事实上,这是因为作者自己的偏好导致的。

来源:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/

3.理解机器学习
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz and Shai Ben-David

机器学习是计算机科学中发展最快的领域之一,有着深远的实际应用。这本书有条理的介绍了机器学习,以及相关的典型算法。这本书既介绍了机器学习的一些基本概念,也介绍了将这些概念转化为实际算法的数学推导。在介绍了基本概念之后,这本书也覆盖了一些之前的教科书中所没有涉及过的重要主题,包括模型算法的复杂度和凸性,稳定性的概念;重要的算法范例包括随机梯度下降法,神经网络模型,和机构化预测法;还有新兴的理论概念比如PAC-贝叶斯法和compression-based bounds(压缩界限法)。

来源:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/

4.统计学习精要
The Elements of Statistical Learning
作者:Trevor Hastie,Robert Tibshirani,etc

这本书用常用的概念框架解释了统计领域中的重要概念。虽然是用的统计学方法,但是重点在概念的解读而不是数学运算。书中给出了很多例子,也用了很多彩图。对数据挖掘感兴趣的人和统计学家来说都会是很有价值的资源。这本书涵盖的知识很广,从监督学习到非监督学习都有涉猎。众多的话题中包括神经网络模型,支持向量机,以及最全面关于分类树及推算话题的介绍。

来源:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

5.统计学习及其在R中的应用
An Introduction to Statistical Learning with Applications in R
作者:GarethJames,DanielaWitten,etc

这本书介绍了一些统计学习的方法,是为非数学专业高水平的本科生,研究生和博士生设计的。这本书也包含了一些R语言的练习题和如何在现实中应用统计模型的详细说明,对于新入行的数学科学家来说是非常有价值的资源。

来源:
http://www-bcf.usc.edu/~gareth/ISL/

6.数据科学基础
Foundations of Data Science
作者:Avrim Blum, John Hopcroft,etc

虽然计算机科学的传统领域依然很重要,未来,更多的研究者会集中于用电脑从应用的大量数据中提取有用信息,而不是只是解决一些确定的问题。考虑到这一点,我们在这本书中涵盖了未来40年可能会有用的理论,就像自动控制原理,算法和相关主题在过去的40年给予学生的巨大帮助一样。

来源:
https://www.cs.cornell.edu/jeh/book.pdf

7.给程序员的数据挖掘指南:
数字迷宫的艺术
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski

这本书奉行的是边干边学的方法论。我希望你能用我提供过的Python代码实践书中的练习和实验,而不仅仅是被动的阅读。我希望你会积极主动的尝试不同的数据挖掘方法。这本书由一系列互相贯通的小分支组成,当你读完这本书的时候,你就为理解数据挖掘技术奠定了夯实的基础。

来源:
http://guidetodatamining.com

8.大数据·互联网大规模
数据完觉与分布式处理
Mining of Massive Datasets
作者:Jure Leskovec, etc
这本书是基于斯坦福大学的计算机科学课程 cs246(海量数据挖掘)和 CS345A (数据挖掘)而撰写的。

这本书,正如这门课程一样,是为计算机科学的本科生设计的,并没有任何先修课程的要求。为了鼓励读者进行更深的探索,绝大部分的章节后面都补充了参考文献以供深层次的阅读。

来源:http://mmds.org

9.深度学习
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio and Aaron Courville
《深度学习》这本书是为了帮助学生和相关从业人员进入一般而言的机器学习领域,尤其是深度学习而设计的。这本书的在线版本现已完结,并会长期免费开发。

来源:
http://www.deeplearningbook.org

10.对机器学习的渴望
Machine Learning Yearning
作者:Andrew Ng
人工智能,机器学习和深度学习正在改变着数不胜数的行业。但是建立一个机器学习系统需要你在实际中做出下面的决定:

应该要收集更多的训练数据吗?
应该使用端对端的深度学习吗?
如何处理与测试集不对应的训练集?
……

在以前,做出上述战略性决定的唯一方法是花几年时间去读研究生或者去公司里学习。我写这本书的目的是帮助你快速掌握做上述决定的能力,使你可以在人工智能系统方面做得更好。

原文发布时间为:2017-09-25
作者:Matthew Mayo
编译:keiko,万如苑,松清波
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【数据挖掘导论】书籍小册(一)绪论
【数据挖掘导论】书籍小册(一)绪论
0 0
数据科学入门三个月的一些随想
回顾了入门Data Science以来的一些所思所想。
1638 0
从事数据科学前必须知道的五件事儿
本文讲解了从事数据科学前应该了解的五件事情,主要是关于学习数据科学时候应该注意的一些事项。
1641 0
数据挖掘敲门砖--Python爬虫入门
Python爬虫.jpg WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此) 数据分析方向:需要数理知识支撑,比如概率论,统计学等 数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作 科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法 但是看完简介,好像和爬虫没什么关系? 接着往下看。
1966 0
如何利用数据挖掘结束单身
 一 为什么做爱情战略分析? 基于对爱情的三个重要假设 1、爱情是稀缺的情感资源: 由于是稀缺资源,因此爱情存在竞争和选择,只有理性决策,才能在有限的资源约束下对情感做有效配置。 2、爱情是理性选择 对于大样本而言,理性恋爱的失败率要小于感性恋爱。
4565 0
+关注
技术小能手
云栖运营小编~
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
浙大杨洋教授PPT:社交网络中的群体用户行为分析与表示学习
立即下载
大数据可视化与自然之美
立即下载
当人工智能“科学遇到艺术”的一点杂谈
立即下载