Python数据分析——白葡萄酒实训

简介: Python数据分析——白葡萄酒实训

一:数据收集

变量名 含义
fixed acidity 固定酸度
volatile acidity 挥发性酸度
citric acidity 柠檬酸
residual sugar 剩余糖
chlorides 氧化物
free sulfur dioxide 游离的二氧化碳
total sulfur dioxide 总二氧化硫
density 密度
PH
sulphates 酸碱盐
alcohol 酒精
quality 品质

完整数据

实训之前我们需要先下载数据,我这里是下载完之后文件名是:white_wine.csv


二:读取数据

1:显示前5行数据

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
for i in range(5):
    print(data[i])
f.close()

c703aebaaf3f4bb4a9f07f9a46d8b12f.png


三:数据处理

1:查看白葡萄酒总共分为几种品质等级

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
quality_list = []
for row in data[1:]:
    quality_list.append(int(row[ -1]))
quality_count = set(quality_list)
print("白葡萄酒共有%s种等级, 分别为:%r"
      %(len(quality_count), quality_count))


白葡萄酒共有7种等级, 分别为:{3, 4, 5, 6, 7, 8, 9}


2:统计等级及其数量

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
for key in content_dict:
    print('等级为%d, 数量为%d' %(key, len(content_dict[key])))
f.close()
等级为6, 数量为1539
等级为5, 数量为1020
等级为7, 数量为616
等级为8, 数量为123
等级为4, 数量为115
等级为3, 数量为14
等级为9, 数量为4


条形图展示

import csv
import numpy as np
import matplotlib.pyplot as plt
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
x = []
y = []
for key in content_dict:
    x.append(key)
    y.append(len(content_dict[key]))
plt.bar(x, y)
plt.show()

4e7e74c8175f40e1942bf0e564e82bd3.png


3:计算每个数据集中fixed acidity的均值

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
mean_list = []
for key,value in content_dict.items():
    sum = 0
    for row in value:
        sum += float(row[0])
    mean_list.append((key, sum / len(value)))
for item in mean_list:
    print(item[0],",", item[1])


6 : 6.812085769980511
5 : 6.907843137254891
7 : 6.755844155844158
8 : 6.708130081300811
4 : 7.052173913043476
3 : 7.535714285714286
9 : 7.5


目录
相关文章
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
83 3
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
108 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
160 4
数据分析的 10 个最佳 Python 库
|
2月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
120 5
|
2月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势
|
2月前
|
数据采集 存储 数据可视化
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第42天】本文将介绍如何使用Python进行数据分析和可视化。我们将从数据导入、清洗、探索性分析、建模预测,以及结果的可视化展示等方面展开讲解。通过这篇文章,你将了解到Python在数据处理和分析中的强大功能,以及如何利用这些工具来提升你的工作效率。
|
2月前
|
数据采集 数据可视化 数据挖掘
深入浅出:使用Python进行数据分析的基础教程
【10月更文挑战第41天】本文旨在为初学者提供一个关于如何使用Python语言进行数据分析的入门指南。我们将通过实际案例,了解数据处理的基本步骤,包括数据的导入、清洗、处理、分析和可视化。文章将用浅显易懂的语言,带领读者一步步掌握数据分析师的基本功,并在文末附上完整的代码示例供参考和实践。
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
63 2

热门文章

最新文章