感觉可以扩展的东西很多,后台也有朋友发私信提了一些建议怎奈时间精力有限,多元线性回归的模型诊断再次延迟。大家有好的建议也欢迎留言,也期待大家能够投稿原创文章。今天继续偷个懒,写个短小精悍的入门级文章。
Scikit-Learn高清全景图传送:http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。
scikit-learn内置了很多机器学习模块,也提供了很多数据集。
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
Sklearn包含的常用算法里介绍过常用的算法,scikit-learn中学习模式的调用,有很强的统一性,很多都是类似的,学会一个,其他基本差不多。以day2简单线性回归为例
from sklearn.linear_model import LinearRegression #导入模型 regressor = LinearRegression() #建立模型 regressor = regressor.fit(X_train, Y_train) #训练模型 regressor.predict(X_test) #预测
总结起来就是8个字:导入-建模-训练-预测
调用sklearn 波士顿房价数据集,然后使用线性回归的方法对其进行预测。
from sklearn import datasets #调用线性回归函数 from sklearn.linear_model import LinearRegression #导入数据集 #这里将全部数据用于训练,并没有对数据进行划分,上例中 #将数据划分为训练和测试数据,后面会讲到交叉验证 loaded_data = datasets.load_boston() data_X = loaded_data.data data_y = loaded_data.target #设置线性回归模块 model = LinearRegression() #训练数据,得出参数 model.fit(data_X, data_y) #利用模型,对新数据,进行预测,与原标签进行比较 print(model.predict(data_X[:4,:])) print(data_y[:4])
ps:工作有点变动,明天也不能保证按时更新,提前抱歉!