ML之kNN:利用kNN算法对莺尾(Iris)数据集进行多分类预测

简介: ML之kNN:利用kNN算法对莺尾(Iris)数据集进行多分类预测

输出结果




输出数据说明:

Iris Plants Database

====================

Notes

-----

Data Set Characteristics:

   :Number of Instances: 150 (50 in each of three classes)

   :Number of Attributes: 4 numeric, predictive attributes and the class

   :Attribute Information:

       - sepal length in cm

       - sepal width in cm

       - petal length in cm

       - petal width in cm

       - class:

               - Iris-Setosa

               - Iris-Versicolour

               - Iris-Virginica

   :Summary Statistics:

   ============== ==== ==== ======= ===== ====================

                   Min  Max   Mean    SD   Class Correlation

   ============== ==== ==== ======= ===== ====================

   sepal length:   4.3  7.9   5.84   0.83    0.7826

   sepal width:    2.0  4.4   3.05   0.43   -0.4194

   petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)

   petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

   ============== ==== ==== ======= ===== ====================

   :Missing Attribute Values: None

   :Class Distribution: 33.3% for each of 3 classes.

   :Creator: R.A. Fisher

   :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

   :Date: July, 1988

This is a copy of UCI ML iris datasets.

http://archive.ics.uci.edu/ml/datasets/Iris

The famous Iris database, first used by Sir R.A Fisher

This is perhaps the best known database to be found in the

pattern recognition literature.  Fisher's paper is a classic in the field and

is referenced frequently to this day.  (See Duda & Hart, for example.)  The

data set contains 3 classes of 50 instances each, where each class refers to a

type of iris plant.  One class is linearly separable from the other 2; the

latter are NOT linearly separable from each other.

References

----------

  - Fisher,R.A. "The use of multiple measurements in taxonomic problems"

    Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to

    Mathematical Statistics" (John Wiley, NY, 1950).

  - Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis.

    (Q327.D83) John Wiley & Sons.  ISBN 0-471-22361-1.  See page 218.

  - Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System

    Structure and Classification Rule for Recognition in Partially Exposed

    Environments".  IEEE Transactions on Pattern Analysis and Machine

    Intelligence, Vol. PAMI-2, No. 1, 67-71.

  - Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule".  IEEE Transactions

    on Information Theory, May 1972, 431-433.

  - See also: 1988 MLC Proceedings, 54-64.  Cheeseman et al"s AUTOCLASS II

    conceptual clustering system finds 3 classes in the data.

  - Many, many more ...


image.png




设计思路


image.png


核心代码


X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25, random_state=33)

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.transform(X_test)

knc = KNeighborsClassifier()

knc.fit(X_train, y_train)

y_predict = knc.predict(X_test)

knc.score(X_test, y_test))


相关文章
|
2天前
|
机器学习/深度学习 存储 算法
用kNN算法诊断乳腺癌--基于R语言
用kNN算法诊断乳腺癌--基于R语言
|
2天前
|
机器学习/深度学习 分布式计算 并行计算
【机器学习】怎样在非常大的数据集上执行K-means算法?
【5月更文挑战第13天】【机器学习】怎样在非常大的数据集上执行K-means算法?
|
2天前
|
算法 Python
利用贝叶斯算法对简单应用实现预测分类
利用贝叶斯算法对简单应用实现预测分类
6 0
|
2天前
|
机器学习/深度学习 人工智能 算法
【机器学习】K-means和KNN算法有什么区别?
【5月更文挑战第11天】【机器学习】K-means和KNN算法有什么区别?
|
2天前
|
算法 数据可视化 前端开发
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化(下)
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化
|
2天前
|
算法 数据可视化 数据挖掘
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化(上)
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化
|
2天前
|
编解码 算法 数据可视化
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
|
2天前
|
机器学习/深度学习 数据采集 算法
共享单车需求量数据用CART决策树、随机森林以及XGBOOST算法登记分类及影响因素分析
共享单车需求量数据用CART决策树、随机森林以及XGBOOST算法登记分类及影响因素分析
|
2天前
|
机器学习/深度学习 自然语言处理 算法
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(下)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
|
2天前
|
机器学习/深度学习 算法 大数据
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(上)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享