《机器学习实战》k最近邻算法(K-Nearest Neighbor,Python实现)

简介: ============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Pyt...
============================================================================================
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现

另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言
============================================================================================


一、什么是看KNN算法?
二、KNN算法的一般流程
三、KNN算法的Python代码实现


numpy 模 块 参 考教程:http://old.sebug.net/paper/books/scipydoc/index.html
决策树(ID3)算法请参考:http://blog.csdn.net/gamer_gyt/article/details/47679017

一:什么是看KNN算法?
        kNN算法全称是k-最近邻算法(K-Nearest Neighbor)
        kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

下边举例说明:

即使不知道未知电影属于哪种类型,我们也可以通过某种方法计算出来,如下图

现在我们得到了样本集中与未知电影的距离,按照距离的递增顺序,可以找到k个距离最近的电影,假定k=3,则三个最靠近的电影是和he is not realy into Dudes,Beautiful women, California man kNN算法按照距离最近的三部电影类型决定未知电影类型,这三部都是爱情片,所以未知电影的类型也为爱情片
二:KNN算法的一般流程

step.1---初始化距离为最大值

step.2---计算未知样本和每个训练样本的距离dist

step.3---得到目前K个最临近样本中的最大距离maxdist

step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本

step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完

step.6---统计K-最近邻样本中每个类标号出现的次数

step.7---选择出现频率最大的类标号作为未知样本的类标号


三、KNN算法的Python代码实现
#encoding:utf-8
from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

def classify0(inX,dataSet,labels,k):
    #返回“数组”的行数,如果shape[1]返回的则是数组的列数
    dataSetSize = dataSet.shape[0]
    #两个“数组”相减,得到新的数组
    diffMat = tile(inX,(dataSetSize,1))- dataSet
    #求平方
    sqDiffMat = diffMat **2
    #求和,返回的是一维数组
    sqDistances = sqDiffMat.sum(axis=1)
    #开方,即测试点到其余各个点的距离
    distances = sqDistances **0.5
    #排序,返回值是原数组从小到大排序的下标值
    sortedDistIndicies = distances.argsort()
    #定义一个空的字典
    classCount = {}
    for i in range(k):
        #返回距离最近的k个点所对应的标签值
        voteIlabel = labels[sortedDistIndicies[i]]
        #存放到字典中
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    #排序 classCount.iteritems() 输出键值对 key代表排序的关键字 True代表降序
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)
    #返回距离最小的点对应的标签
   return sortedClassCount[0][0]

调用方式:打开CMD,进入kNN.py文件所在的目录,输入Python,依次输入import kNN     group,labels = kNN.createDataSet()    kNN.classify0([0,0],group,lables,3)


相关文章
|
2天前
|
数据库 开发者 UED
探索Python中的异步编程:从基础到实战
【8月更文挑战第29天】本文将深入探讨Python的异步编程概念,并展示如何利用它来提高程序的性能和响应性。我们将从理解Python异步编程的基本概念开始,逐步过渡到构建实际的异步应用。文章将通过具体示例和代码片段,指导读者如何在不阻塞主线程的情况下执行长时间运行的任务,以及如何处理并发任务,从而优化资源使用和提高用户体验。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和实用的技巧。
|
2天前
|
数据采集 存储 JSON
python实战
这篇文章提供了一个Python编写的网络爬虫程序,用于爬取Yahoo知惠袋网站的问答数据,并将其存储为JSON和CSV格式,程序使用了requests、parsel、fake_useragent等库来发送请求、解析HTML和模拟用户代理。
|
2天前
|
设计模式 关系型数据库 MySQL
探索Python中的异步编程:从基础到实战
【8月更文挑战第29天】在Python的世界中,异步编程是提升程序性能和响应速度的重要手段。本文将深入浅出地介绍Python异步编程的核心概念、实现方式以及实际应用案例,旨在帮助读者构建起对Python异步编程的全面认识,并通过实例学习如何在自己的项目中有效运用异步技术。
|
2天前
|
数据采集 设计模式 数据挖掘
探索Python中的异步编程:从基础到实战
【8月更文挑战第29天】在Python世界中,异步编程是提升程序效率和响应速度的关键所在。本文将带你从异步编程的基础概念出发,深入理解其背后的工作原理,并逐步展示如何在实际项目中应用这一技术以优化性能。通过直观的示例和清晰的解释,我们将一起构建一个异步Web爬虫,体验异步IO带来的强大能力。准备好,让我们一起跳入Python异步编程的精彩世界!
|
3天前
|
机器学习/深度学习 算法 数据挖掘
8个常见的机器学习算法的计算复杂度总结
8个常见的机器学习算法的计算复杂度总结
8个常见的机器学习算法的计算复杂度总结
|
1天前
|
机器学习/深度学习 PHP 开发者
探索PHP中的面向对象编程构建你的首个机器学习模型:以Python和scikit-learn为例
【8月更文挑战第30天】在PHP的世界中,面向对象编程(OOP)是一块基石,它让代码更加模块化、易于管理和维护。本文将深入探讨PHP中面向对象的魔法,从类和对象的定义开始,到继承、多态性、封装等核心概念,再到实战中如何应用这些理念来构建更健壮的应用。我们将通过示例代码,一起见证PHP中OOP的魔力,并理解其背后的设计哲学。
|
1天前
|
数据采集 数据挖掘 开发者
Python编程入门:从基础到实战
【8月更文挑战第30天】本文将带你走进Python的世界,从基本语法开始,逐步深入到数据结构、函数、面向对象编程等高级特性。我们将通过实际案例,如网页爬虫和数据分析,展示如何应用所学知识解决实际问题。无论你是编程新手还是希望扩展技能的开发者,这篇文章都将为你提供宝贵的指导和启发。
|
2天前
|
Python
探索Python中的装饰器:从入门到实战
【8月更文挑战第29天】在Python的世界里,装饰器是那些让代码更加优雅和高效的小精灵。它们就像是编程世界的调味料,能让平淡无奇的函数变得鲜活起来。本文将带你走进装饰器的世界,从基础概念出发,一步步深入到它们的应用实战中。你将看到,装饰器不仅仅是语法糖,它们是实现代码重用、功能增强的强有力工具。准备好了吗?让我们一起揭开装饰器的神秘面纱,开启一段代码美化之旅!
|
2天前
|
数据采集 机器学习/深度学习 存储
Python编程入门:从基础到实战
【8月更文挑战第29天】本文将带你走进Python的世界,从最基础的语法开始,逐步深入到实际的项目开发。我们将通过详细的代码示例和实践案例,帮助你掌握Python编程的核心技能,提升你的编程能力。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考和指导。
|
2天前
|
机器学习/深度学习 存储 定位技术
强化学习Agent系列(一)——PyGame游戏编程,Python 贪吃蛇制作实战教学
本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学,介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。

热门文章

最新文章

下一篇
云函数