送你10本机器学习和数据科学必读书

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 让一系列免费的机器学习与数据科学书籍开启你的夏日学习之旅吧!

1.Python Data Science Handbook

链接:
https://github.com/jakevdp/PythonDataScienceHandbook
作者:Jake VanderPlas

这本书介绍了在Python中处理数据所需要的基本而重要的库,包括IPython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关的包。该书假定读者对Python语言有一定的了解。如果你需要快速入门Python这门语言,可以查看免费的配套项目:

A Whirlwind Tour of Python:
https://github.com/jakevdp/WhirlwindTourOfPython

它会帮助研究员和科学家快速入门Python。

2.Neural Networks and Deep Learning

链接:
http://neuralnetworksanddeeplearning.com/
作者:Michael Nielsen

Neural Networksand Deep Learning是一本在线书籍。这本书会告诉你:

神经网络是一种优美的仿生编程范例,它使得计算机能够通过观测数据进行学习。
度学习是一系列强大的技术, 以帮助实现在神经网络中学习。

神经网络和深度学习目前是图像识别、语言识别和自然语言处理等领域的最佳方案。该书同时也会教你神经网络与深度学习的各种核心概念。

3.Think Bayes

链接:
http://greenteapress.com/wp/think-bayes/
作者:Allen B. Downey

Think Bayes是介绍如何通过编程方法进行贝叶斯统计的书籍。

这本书和其他Think X系列书籍的想法一样,他们认为只要你知道如何编程,那么你就可以通过这项技能来学习其他的课题。

大多数的贝叶斯统计书籍会使用数学符号并且通过微积分一类的数学概念来展现其统计思想。这本书则使用Python代码、离散逼近而非数学、连续数学来解释贝叶斯统计。通过这样的方式,在数学书里的积分,将会转变为求和。许多在概率分布上的操作将会通过简单的循环而实现。

4.Machine Learning & Big Data

链接:
http://www.kareemalkaseer.com/books/ml
作者:Kareem Alkaseer

这本书还没写完,我把它添加到表单,你可以稍后才看[H1] 。这个项目的目的在于平衡软件工程师的理论与实践,使他们能轻松地运行机器学习模型而并不需要过分依赖各种各样的库。大多数时候,模型或技术背后的概念是简单而直观的,但却在大量的细节或者术语中被掩盖了。同时,大多数情况下,现有的库能够解决手头的问题,但是他们却被视作一个黑盒子,通常因他们自身的抽象与架构隐藏了背后的基本概念。这本书将阐释这些基本概念。

5.Statistical Learning with Sparsity:
The Lasso andGeneralizations

链接:
https://web.stanford.edu/~hastie/StatLearnSparsity/
作者:Trevor Hastie,Robert Tibshirani,Martin Wainwright

过去的十年里,计算和信息技术出现了爆炸性增长,同时出现了大量的源自不同领域的数据,例如医疗、生物、金融和市场营销。这本书将在一个通用的概念性框架下来讲解这些领域的重要思想。

6.Statistical inference for data science

链接:
https://leanpub.com/LittleInferenceBook
作者:Brian Caffo

这本书是Coursera数据科学项目(Data Science Specialization)中的统计推断(Statistical Inference)课程配套书籍。但是你并不需要上这门课,因为这本书的大部分内容可以独立使用。这本书其中一个重要的部分是一系列组成Coursera 课程的Youtube视频。这本书的出版诣在提供一个成本低廉的统计推断入门。目标读者是有数学或计算机背景的并且希望在统计和数据科学领域中得以运用的学生。这本书在Github上以markdown文档的形式免费提供。同时也以更便捷的形式(epub,mobi)在LeanPub和零售店提供。

7.Convex Optimization

链接:
http://stanford.edu/~boyd/cvxbook/
作者:Stephen Boyd,Lieven Vandenberghe

这本书是关于凸优化的,即一类数学优化问题,包括最小二乘方和线性规划。众所周知,最小二乘方和线性规划是非常完整的理论,它们有着各式各样的应用,并且可以用数学的方法高效地得出解。这本书的中心即阐述更多的凸优化问题。

8.Natural Language Processing
with Python

链接:
https://www.nltk.org/book/
作者:Steven Bird,Ewan Klein,Edward Loper

这是一本关于自然语言处理的书。“自然语言”指的是人类日常交流使用的语言,例如英语、印度语和葡萄牙语。相较于数学符号、编程语言等人造语言,自然语言在时代变迁中不断进化,很难通过明确的规则来界定。我们这里定义的是广义上的自然语言处理,本书将会介绍计算机对自然语言各种形式的操作。

这本书基于Python语言,并同时提供名叫Natural Language Toolkit的开放资源库。

9.Automate the Boring Stuff
with Python

链接:
https://automatetheboringstuff.com/
作者:Al Sweigart

如果你曾花过数小时时间在文件重命名和更新数百个电子表格数据上,那么你知道这些工作有多么枯燥乏味。但如果你能够让电脑可以帮你做这些呢?

这本书里,你会学习如何使用Python来编辑程序,来代替你做需要花几个小时的事情,并且你不需要有编程基础。当你很纯熟地掌握这些编程基础,你将能够使用Python编程毫不费力地实现许多有用并惊艳的自动化特技。

10.Social Media Mining: An Introduction

链接:
http://dmml.asu.edu/smm/
作者:Reza Zafarani, Mohammad Ali Abbasi and Huan Liu

过去十年中,社交媒体颠覆了个体的交流和行业间的经营方式。个体以史无前例的速度通过在社交媒体上交流、分享和消费内容产生大量数据。理解和分析这类新数据来收集可行的模型成为了交叉领域研究、新型算法和工具开发所面临的新机遇与新挑战。这本书结合了社交媒体,社交网络分析和数据挖掘,帮助学生、从业者、研究员和项目经理快速、清晰地理解社交媒体挖掘的基础和未来的可能性。

原文发布时间为:2018-07-13
本文作者:Matthew Mayo
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU

相关文章
|
2月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
1月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
44 0
|
4月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
183 7
|
5月前
|
机器学习/深度学习 数据采集 存储
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
|
7月前
|
机器学习/深度学习 算法 数据处理
从数据科学到机器学习的过渡:技术与思维的演进
【5月更文挑战第21天】本文探讨了从数据科学到机器学习的过渡,强调了技术与思维的转变。数据科学侧重数据处理和分析,为机器学习提供基础;机器学习是数据科学的强大力量,涉及算法开发。过渡需掌握机器学习算法、编程语言(如Python)及库,转变思维方式,注重预测和优化分析。建议包括深入学习算法、实践项目、掌握编程工具和保持好奇心。这一过渡是职业发展的重要步骤。
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
112 0
|
6月前
|
机器学习/深度学习 数据采集 算法
踏上机器学习之路:探索数据科学的奥秘与魅力
踏上机器学习之路:探索数据科学的奥秘与魅力
53 0
|
7月前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
69 1
|
7月前
|
机器学习/深度学习 算法 Java
现代数据科学中的机器学习技术发展与应用
本文探讨了现代数据科学领域中机器学习技术的发展和应用。我们介绍了机器学习的基本概念和原理,并探讨了它在前端、后端、Java、Python、C以及数据库等多种技术领域的具体应用。通过深入剖析不同领域的案例研究,我们展示了机器学习在解决实际问题和推动技术创新方面的巨大潜力。最后,我们对未来机器学习技术的发展趋势进行了展望。