Python数据分析——白葡萄酒实训

简介: Python数据分析——白葡萄酒实训

一:数据收集

变量名 含义
fixed acidity 固定酸度
volatile acidity 挥发性酸度
citric acidity 柠檬酸
residual sugar 剩余糖
chlorides 氧化物
free sulfur dioxide 游离的二氧化碳
total sulfur dioxide 总二氧化硫
density 密度
PH
sulphates 酸碱盐
alcohol 酒精
quality 品质

完整数据

实训之前我们需要先下载数据,我这里是下载完之后文件名是:white_wine.csv


二:读取数据

1:显示前5行数据

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
for i in range(5):
    print(data[i])
f.close()

c703aebaaf3f4bb4a9f07f9a46d8b12f.png


三:数据处理

1:查看白葡萄酒总共分为几种品质等级

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
quality_list = []
for row in data[1:]:
    quality_list.append(int(row[ -1]))
quality_count = set(quality_list)
print("白葡萄酒共有%s种等级, 分别为:%r"
      %(len(quality_count), quality_count))


白葡萄酒共有7种等级, 分别为:{3, 4, 5, 6, 7, 8, 9}


2:统计等级及其数量

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
for key in content_dict:
    print('等级为%d, 数量为%d' %(key, len(content_dict[key])))
f.close()
等级为6, 数量为1539
等级为5, 数量为1020
等级为7, 数量为616
等级为8, 数量为123
等级为4, 数量为115
等级为3, 数量为14
等级为9, 数量为4


条形图展示

import csv
import numpy as np
import matplotlib.pyplot as plt
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
x = []
y = []
for key in content_dict:
    x.append(key)
    y.append(len(content_dict[key]))
plt.bar(x, y)
plt.show()

4e7e74c8175f40e1942bf0e564e82bd3.png


3:计算每个数据集中fixed acidity的均值

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
mean_list = []
for key,value in content_dict.items():
    sum = 0
    for row in value:
        sum += float(row[0])
    mean_list.append((key, sum / len(value)))
for item in mean_list:
    print(item[0],",", item[1])


6 : 6.812085769980511
5 : 6.907843137254891
7 : 6.755844155844158
8 : 6.708130081300811
4 : 7.052173913043476
3 : 7.535714285714286
9 : 7.5


目录
相关文章
|
4月前
|
数据采集 数据可视化 数据挖掘
Python数据分析实战:Pandas处理结构化数据的核心技巧
在数据驱动时代,结构化数据是分析决策的基础。Python的Pandas库凭借其高效的数据结构和丰富的功能,成为处理结构化数据的利器。本文通过真实场景和代码示例,讲解Pandas的核心操作,包括数据加载、清洗、转换、分析与性能优化,帮助你从数据中提取有价值的洞察,提升数据处理效率。
273 3
|
6月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
800 0
|
3月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
4月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
5月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
255 3
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析,别再死磕Excel了!
Python数据分析,别再死磕Excel了!
350 2
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
1291 4
数据分析的 10 个最佳 Python 库
|
11月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
本书介绍了如何将Python与Excel结合使用,以提升数据分析和处理效率。内容涵盖Python入门、pandas库的使用、通过Python包操作Excel文件以及使用xlwings对Excel进行编程。书中详细讲解了Anaconda、Visual Studio Code和Jupyter笔记本等开发工具,并探讨了NumPy、DataFrame和Series等数据结构的应用。此外,还介绍了多个Python包(如OpenPyXL、XlsxWriter等)用于在无需安装Excel的情况下读写Excel文件,帮助用户实现自动化任务和数据处理。

推荐镜像

更多