2.3Python数据挖掘建模常用框架和库
Python拥有丰富的第三方库,在许多方面都有着广泛的应用,且随着各种模块的逐步完善,它在科学领域的地位越来越重要,这其中就包括数据挖掘领域。Python数据挖掘建模中常用的框架包括TensorFlow、Keras、PyTorch、PaddlePaddle、Caffe等,常用的库包括scikit-learn、jieba、SciPy、OpenCV、Pillow、Gensim和SnowNLP等。
2.3.scikit-learn
scikit-learn(简称sklearn)项目最早数据科学家大卫 库尔纳佩在2007年发起,需要NumPy和SciPy等库的支持,经研发后,scikit-learn成为一个开源的机器学习库。
scikit-learn是Python下强大的机器学习工具包,提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测、模型分析等,同时还是一种简单高雄啊的数据挖掘和数据分析工具,可在各种环境中重复使用。scikit-learn内部还实现了各种各样成熟的算法,容易安装和使用,样例也十分丰富。由于scikit-learn依赖NumPy、SciPy和Matplotlib,所以只需要提前安装好几个库,基本可以正常安装和使用。若使用scikit-learn创建机器学习模型,则须注意以下几点。
<1>所有模型提供的接口都为model.fit(),用于训练模型。需要注意的是,用于分类与回归算法的训练模型的语句为fix(X,y),用语言非分类与回归算法的训练模型的语句为fix(X)。
<2>分类与回归模型提供如下接口。
a.model.predict(X_new):预测新样本。
b.model.predict_proba(X_new):预测概率,仅对某些模型有用(如逻辑回归)。
c.model.score():得分越高,模型拟合效果越好。
<3>非分类与回归模型提供如下接口。
a.modeltransform():在fit函数的基础上,进行标准化、降维、归一化等数据处理操作。
b.model.fit_traansform():fit函数和transform函数的组合,既包含训练,又包含数据处理操作。
scikit-learn本身还提供了一些实例数据用于练习,常见的有安德森鸢尾花卉数据集、手写图像数据集等。