使用pandas,7行代码实现朴素贝叶斯

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 作者:hhh5460大抵分成两类一、离散的、标签化的数据原文没有使用pandas,我使用pandas重新实现了朴素贝叶斯算法,看起来非常简洁、清爽。import pandas as pd'''导入数据集{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, ...

作者:hhh5460

大抵分成两类

一、离散的、标签化的数据

原文没有使用pandas,我使用pandas重新实现了朴素贝叶斯算法,看起来非常简洁、清爽。

import pandas as pd

'''
导入数据集
{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 1, a2 = 0, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 0, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}
'''
#导入数据集
data = [[0, 0, 0],
[0, 0, 0],
[0, 0, 0],
[1, 0, 0],
[1, 0, 0],
[1, 0, 0],
[1, 1, 0],
[1, 1, 0],
[1, 1, 0],
[1, 1, 0],
[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[1, 0, 1],
[1, 0, 1],
[1, 1, 1],
[1, 1, 1],
[1, 1, 1]]

df = pd.DataFrame(data, columns=['a1', 'a2', 'c'])

'''
#计算类别的先验概率
#P(C = 0) = 0.5
#P(C = 1) = 0.5
'''

#计算类别的先验概率
pc = df['c'].value_counts()/df['c'].size

'''
计算每个特征属性条件概率:
P(a1 = 0 | C = 0) = 0.3
P(a1 = 1 | C = 0) = 0.7
P(a2 = 0 | C = 0) = 0.4
P(a2 = 1 | C = 0) = 0.6
P(a1 = 0 | C = 1) = 0.5
P(a1 = 1 | C = 1) = 0.5
P(a2 = 0 | C = 1) = 0.7
P(a2 = 1 | C = 1) = 0.3
'''
# 计算每个特征属性条件概率:
pa1 = pd.crosstab(df['c'], df['a1'], margins=True).apply(lambda x:x/x[-1], axis=1)
pa2 = pd.crosstab(df['c'], df['a2'], margins=True).apply(lambda x:x/x[-1], axis=1)

'''
测试样本:
x = { a1 = 1, a2 = 1}
p(x | C = 0) = p(a1 = 1 | C = 0) * p( a2 = 1 | C = 0) = 0.3 * 0.6 = 0.18
p(x | C = 1) = p(a1 = 1 | C = 1) * p (a2 = 1 | C = 1) = 0.5 * 0.3 = 0.15
'''
# 给出测试样本:
x = pd.Series([1,1], index=['a1', 'a2'])
px = pa1.ix[:,x[0]].mul(pa2.ix[:,x[1]])[:-1]
'''
计算P(C | x):
P(C = 0) * p(x | C = 1) = 0.5 * 0.18 = 0.09
P(C = 1) * p(x | C = 1) = 0.5 * 0.15 = 0.075
所以认为测试样本属于类型C1
'''
# 计算P(C | x)
res = pc.mul(px).argmax()
print(res)

同样的方法,7行代码解决这里的问题:

import pandas as pd

data = [['打喷嚏','护士','感冒'],
        ['打喷嚏','农夫','过敏'],
        ['头痛','建筑工人','脑震荡'],
        ['头痛','建筑工人','感冒'],
        ['打喷嚏','教师','感冒'],
        ['头痛','教师','脑震荡']]
        
df = pd.DataFrame(data, columns=['症状','职业','疾病'])


#计算类别的先验概率
pr = df['疾病'].value_counts()/df['疾病'].size


# 计算每个特征属性条件概率:
pzz = pd.crosstab(df['疾病'], df['症状'], margins=True).apply(lambda x:x/x[-1], axis=1)
pzy = pd.crosstab(df['疾病'], df['职业'], margins=True).apply(lambda x:x/x[-1], axis=1)

# 给出测试样本:
x = pd.Series(['打喷嚏','建筑工人'], index=['症状','职业'])
px = pzz.ix[:,x[0]].mul(pzy.ix[:,x[1]])[:-1]

# 计算P(C | x)
res = pr.mul(px).argmax()
print(res)

二、连续的、非标签化的数据

1.连续变量,样本足够大。使用区间,标签化

这里的第二个例子:
**

# 检测SNS社区中不真实账号

# 运维人员人工检测过的1万个账号作为训练样本

# 原始数据格式:
# ['日志数量','好友数量','注册天数','是否使用真实头像','账号类别']

'''可惜,没有真实数据!!!!'''
data = [
    [3,0,120,1,1],
    [3,0,120,1,1],
    [3,0,120,1,1],
    [3,0,120,1,1],
    [3,0,120,1,1],
    [3,0,120,1,1],
    [3,0,120,1,1],
    #...
    [3,0,120,1,1]]
    
df = pd.DataFrame(data, columns=['日志数量','好友数量','注册天数','是否使用真实头像','账号类别'])




# 计算训练样本中每个类别的频率(当做 类别的先验概率)
'''
P(C=0) = 8900/10000 = 0.89
P(C=1) = 1100/10000 = 0.11
'''
pr = df['账号类别'].value_counts()/df['账号类别'].size

#================================================================
#----------------------------------------------------------------

# 构建两个特征
# ['日志数量/注册天数','好友数量/注册天数']

df['日志数量/注册天数'] = df['日志数量'].div(df['注册天数'])
df['好友数量/注册天数'] = df['好友数量'].div(df['注册天数'])


# 把'日志数量/注册天数'分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞)三个区间
# 把'好友数量/注册天数'分解成[0, 0.1]、(0.1, 0.8)、[0.8, +∞)三个区间

# 打标签函数(根据 x 值所在的区间)
def depart(x, low, high):
    if x <= low:
        return 0
    elif x >= high:
        return 2
    else:
        return 1
        
# 打标签
df['特征1'] = df['日志数量/注册天数'].apply(depart, args=(0.05, 0.2))
df['特征2'] = df['好友数量/注册天数'].apply(depart, args=(0.1, 0.8))
df['特征3'] = df['是否使用真实头像']

#----------------------------------------------------------------
#================================================================


# 计算每个特征属性条件概率:
ptz1 = pd.crosstab(df['账号类别'], df['特征1'], margins=True).apply(lambda x:x/x[-1], axis=1)
ptz2 = pd.crosstab(df['账号类别'], df['特征2'], margins=True).apply(lambda x:x/x[-1], axis=1)
ptz3 = pd.crosstab(df['账号类别'], df['特征3'], margins=True).apply(lambda x:x/x[-1], axis=1)



# 给出测试样本:
x_ = pd.Series([0.1, 0.2, 0], index=['日志数量/注册天数', '好友数量/注册天数', '是否使用真实头像'])

#================================================================
#----------------------------------------------------------------
# 打标签
x = pd.Series([depart(x_[0], 0.05, 0.2), depart(x_[1], 0.1, 0.8), x_[2]], index=['特征1','特征2','特征3'])
#----------------------------------------------------------------
#================================================================
px = ptz1.ix[:,x[0]].mul(ptz2.ix[:,x[1]]).mul(ptz3.ix[:,x[2]])[:-1]



# 计算P(C | x)
res = pr.mul(px).argmax()
print(res)

2.连续变量,样本太小,无法划分区间。

假设符合正态分布,先求出按类的均值,方差,再代入密度函数
这里的第三个例子:
**

import pandas as pd

# 关于处理连续变量的另一种方法


# 下面是一组人类身体特征的统计资料
data = [['男', 6, 180, 12],
        ['男', 5.92, 190, 11],
        ['男', 5.58, 170, 12],
        ['男', 5.92, 165, 10],
        ['女', 5, 100, 6],
        ['女', 5.5, 150, 8],
        ['女', 5.42, 130, 7],
        ['女', 5.75, 150, 9]]

df = pd.DataFrame(data, columns=['性别','身高(英尺)','体重(磅)','脚掌(英寸)'])


# 已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?
x = pd.Series([6,130,8], index=['身高(英尺)','体重(磅)','脚掌(英寸)'])

# 这里的困难在于,
# 1.连续变量
# 2.样本太少(无法分成区间)

# 解决:
# 假设男性和女性的身高、体重、脚掌都是正态分布,
# 通过样本计算出均值和方差,也就是得到正态分布的密度函数。
# 有了密度函数,就可以把值代入,算出某一点的密度函数的值。

mean_male = df[df['性别']=='男'].mean()
var_male = df[df['性别']=='男'].var()

mean_formale = df[df['性别']=='女'].mean()
var_formale = df[df['性别']=='女'].var()

df2 = pd.concat((x, mean_male, var_male, mean_formale, var_formale), axis=1, keys=['x', 'mean_male', 'var_male', 'mean_formale', 'var_formale'])

# 正态分布密度函数:
# f(x|male) = exp(-(x-mean)**2/(2*var))/sqrt(2*pi*var)
from math import pi
def f(x, mean, var):
    return exp(-(x-mean)**2/(2*var))/sqrt(2*pi*var) # 密度函数

# 求对应的密度函数值
df2['px_male'] = df2['x', 'mean_male', 'var_male'].apply(lambda x:f(x[0],x[1],x[2])) ###################报错!容后再改!!
df2['px_formale'] = df2['x', 'mean_formale', 'var_formale'].apply(lambda x:f(x[0],x[1],x[2]))


# 类别的先验概率
pr = df['性别'].value_counts()/df['性别'].size

# 预测结果
res = pd.Series([df2['p_male'].cumprod()[-1]*pr['男'], df2['p_formale'].cumprod()[-1]]*pr['女'], index=['男','女']).argmax()
print(res)

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
Python
SciPy 教程 之 SciPy 图结构 7
《SciPy 教程 之 SciPy 图结构 7》介绍了 SciPy 中处理图结构的方法。图是由节点和边组成的集合,用于表示对象及其之间的关系。scipy.sparse.csgraph 模块提供了多种图处理功能,如 `breadth_first_order()` 方法可按广度优先顺序遍历图。示例代码展示了如何使用该方法从给定的邻接矩阵中获取广度优先遍历的顺序。
29 2
|
1月前
|
算法 Python
SciPy 教程 之 SciPy 图结构 5
SciPy 图结构教程,介绍图的基本概念和SciPy中处理图结构的模块scipy.sparse.csgraph。重点讲解贝尔曼-福特算法,用于求解任意两点间最短路径,支持有向图和负权边。通过示例演示如何使用bellman_ford()方法计算最短路径。
29 3
|
1月前
|
算法 Python
SciPy 教程 之 SciPy 图结构 6
SciPy 图结构教程,介绍图的基本概念及其在算法中的重要性。通过 `scipy.sparse.csgraph` 模块处理图结构,重点讲解 `depth_first_order()` 方法,用于返回从指定节点开始的深度优先遍历顺序。示例代码演示了如何使用该方法对邻接矩阵进行深度优先遍历。
27 1
|
1月前
|
算法 Python
SciPy 教程 之 SciPy 图结构 4
SciPy 图结构教程,介绍图的基本概念及在 SciPy 中的实现。图由节点和边组成,用于表示对象及其关系。scipy.sparse.csgraph 模块提供了图结构的处理方法,如使用 floyd_warshall() 计算所有节点间最短路径。示例代码展示了如何使用该方法计算并输出结果。
31 1
|
1月前
|
Python
SciPy 教程 之 SciPy 图结构 2
《SciPy 教程 之 SciPy 图结构 2》介绍了图结构作为算法学中的重要框架,通过 `scipy.sparse.csgraph` 模块处理图结构。文章示例展示了如何使用 `connected_components()` 方法查找所有连接组件,通过创建稀疏矩阵并调用该方法实现。
13 0
|
1月前
|
算法 索引 Python
SciPy 教程 之 SciPy 图结构 3
SciPy 图结构教程:介绍图的基本概念、节点和边的定义,以及如何使用 SciPy 的 `scipy.sparse.csgraph` 模块处理图结构。重点讲解 Dijkstra 最短路径算法及其在 SciPy 中的应用,包括 `dijkstra()` 方法的参数设置和使用示例。
15 0
|
1月前
|
算法 Python
SciPy 教程 之 SciPy 图结构 1
SciPy 图结构教程介绍了图的基本概念及其在算法中的应用。图由节点和边组成,节点代表对象,边表示对象间的连接。SciPy 的 `scipy.sparse.csgraph` 模块提供了处理图结构的工具。邻接矩阵用于表示节点间的连接关系,分为有向图和无向图两种类型。无向图的边是双向的,而有向图的边则有明确的方向。
31 0
|
6月前
|
机器学习/深度学习 数据挖掘 Python
机器学习之pandas基础——pandas与概率论的简短碰面
机器学习之pandas基础——pandas与概率论的简短碰面
53 4
|
5月前
|
数据采集 数据挖掘 数据处理
如何用pandas处理数据集?
如何用pandas处理数据集?【7月更文挑战第8天】
62 0
|
7月前
|
机器学习/深度学习 算法 数据挖掘
使用NumPy实现经典算法案例集
【4月更文挑战第17天】本文展示了NumPy在Python中实现经典算法的案例,包括使用NumPy进行冒泡排序、计算欧几里得距离、矩阵转置和协方差矩阵。这些示例突显了NumPy在数值计算、数据分析和科学计算中的威力,强调了掌握NumPy对于数据科学家和机器学习开发者的重要性。