Python训练营笔记 从0完成一个数据分析实战 Day10

简介: 学习笔记 - 天池龙珠计划 - Python 训练营 Task4 Day10(数据分析基本介绍、数据准备及读取、数据探索)

天池龙珠计划 Python训练营

所记录的知识点

  1. pd.read_csv
  2. pd.merge
  3. pd.DataFrame
  4. shape info describe

1、pd.read_csv

pd.read_csv读取csv文件中的数据

CSV文件内容

a_0|b_0|c_0|d_0
a_1|b_1|c_1|d_1
a_2|b_2|c_2|d_2
a_3|b_3|c_3|d_3
import pandas as pd
pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
# 分隔符 |
# 因为csv文件中,未添加无表头。所以,names=["a","b","c","d"]是表头
a_col    b_col    c_col    d_col
0    a_0    b_0    c_0    d_0
1    a_1    b_1    c_1    d_1
2    a_2    b_2    c_2    d_2
3    a_3    b_3    c_3    d_3

2、pd.merge

pd.merge 合并数据
import pandas as pd
csv_untitled = pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
# 分隔符 |
# 因为csv文件中,未添加无表头。所以,names=["a","b","c","d"]是表头
csv_untitled1 = pd.read_csv("untitled1.txt",sep="|",names=["a_col","e_col"])

print("csv_untitled\n",csv_untitled,"\n")

print("csv_untitled1\n",csv_untitled1,"\n")

# 通过a_col来合并
csv_merge = pd.merge(csv_untitled,csv_untitled1)
print("csv_merge\n",csv_merge,"\n")
csv_untitled
   a_col b_col c_col d_col
0   a_0   b_0   c_0   d_0
1   a_1   b_1   c_1   d_1
2   a_2   b_2   c_2   d_2
3   a_3   b_3   c_3   d_3 

csv_untitled1
   a_col e_col
0   a_0   e_0
1   a_1   e_1
2   a_2   e_2
3   a_3   e_3 

csv_merge
   a_col b_col c_col d_col e_col
0   a_0   b_0   c_0   d_0   e_0
1   a_1   b_1   c_1   d_1   e_1
2   a_2   b_2   c_2   d_2   e_2
3   a_3   b_3   c_3   d_3   e_3 

3、pd.merge

pd.DataFrame 提取指定名称的列
import pandas as pd
csv_untitled = pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
csv_untitled1 = pd.read_csv("untitled1.txt",sep="|",names=["a_col","e_col"])

# 通过a_col来合并
csv_merge = pd.merge(csv_untitled,csv_untitled1)
print("csv_merge\n",csv_merge,"\n")

# 提取指定名称的列
csv_col_a_b_e = pd.DataFrame(csv_merge,columns=["a_col","b_col","e_col"])
print("csv_col_a_b_e\n",csv_col_a_b_e)
csv_merge
   a_col b_col c_col d_col e_col
0   a_0   b_0   c_0   d_0   e_0
1   a_1   b_1   c_1   d_1   e_1
2   a_2   b_2   c_2   d_2   e_2
3   a_3   b_3   c_3   d_3   e_3 

csv_col_a_b_e
   a_col b_col e_col
0   a_0   b_0   e_0
1   a_1   b_1   e_1
2   a_2   b_2   e_2
3   a_3   b_3   e_3

4、shape info describe

shape 数据规模
info 整体数据信息
describe 数据分布情况
print("csv_col_a_b_e\n",csv_col_a_b_e,"\n")

# 数据规模
print("csv_col_a_b_e.shape\n",csv_col_a_b_e.shape,"\n")

# 整体数据信息
print("csv_col_a_b_e.info()")
csv_col_a_b_e.info()

# 数据分布情况
print("\ncsv_col_a_b_e.describe\n",csv_col_a_b_e.describe(),"\n")
csv_col_a_b_e
   a_col b_col e_col
0   a_0   b_0   e_0
1   a_1   b_1   e_1
2   a_2   b_2   e_2
3   a_3   b_3   e_3 

csv_col_a_b_e.shape
 (4, 3) 

csv_col_a_b_e.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a_col   4 non-null      object
 1   b_col   4 non-null      object
 2   e_col   4 non-null      object
dtypes: object(3)
memory usage: 128.0+ bytes

csv_col_a_b_e.describe
        a_col b_col e_col
count      4     4     4
unique     4     4     4
top      a_0   b_2   e_0
freq       1     1     1 


欢迎各位同学一起来交流学习心得!

目录
相关文章
|
2月前
|
人工智能 JavaScript API
零基础构建MCP服务器:TypeScript/Python双语言实战指南
作为一名深耕技术领域多年的博主摘星,我深刻感受到了MCP(Model Context Protocol)协议在AI生态系统中的革命性意义。MCP作为Anthropic推出的开放标准,正在重新定义AI应用与外部系统的交互方式,它不仅解决了传统API集成的复杂性问题,更为开发者提供了一个统一、安全、高效的连接框架。在过去几个月的实践中,我发现许多开发者对MCP的概念理解透彻,但在实际动手构建MCP服务器时却遇到了各种技术壁垒。从环境配置的细节问题到SDK API的深度理解,从第一个Hello World程序的调试到生产环境的部署优化,每一个环节都可能成为初学者的绊脚石。因此,我决定撰写这篇全面的实
405 67
零基础构建MCP服务器:TypeScript/Python双语言实战指南
|
2月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
269 0
|
2月前
|
编解码 数据安全/隐私保护 Python
抖音批量发布视频工具,自动上传视频作品笔记,python发布软件
这个抖音批量发布工具包含三个主要模块:主上传程序、配置文件和视频预处理工具。主程序
|
1月前
|
数据采集 存储 Web App开发
Python爬虫库性能与选型实战指南:从需求到落地的全链路解析
本文深入解析Python爬虫库的性能与选型策略,涵盖需求分析、技术评估与实战案例,助你构建高效稳定的数据采集系统。
184 0
|
2月前
|
缓存 监控 API
1688平台开放接口实战:如何通过API获取店铺所有商品数据(Python示列)
本文介绍如何通过1688开放平台API接口获取店铺所有商品,涵盖准备工作、接口调用及Python代码实现,适用于商品同步与数据监控场景。
|
2月前
|
存储 数据安全/隐私保护 开发者
Python深浅拷贝全解析:从原理到实战的避坑指南
在Python开发中,深浅拷贝是处理对象复制的关键概念。直接赋值仅复制引用,修改副本会影响原始数据。浅拷贝(如切片、copy方法)创建新容器但共享嵌套对象,适用于单层结构或需共享子对象的场景;而深拷贝(copy.deepcopy)递归复制所有层级,确保完全独立,适合嵌套结构或多线程环境。本文详解二者原理、实现方式及性能考量,帮助开发者根据实际需求选择合适的拷贝策略,避免数据污染与性能浪费。
159 1
|
2月前
|
存储 监控 安全
Python剪贴板监控实战:clipboard-monitor库的深度解析与扩展应用
本文介绍如何利用Python的clipboard-monitor库实现剪贴板监控系统,涵盖文本与图片的实时监听、防重复存储、GUI界面开发及数据加密等核心技术,适用于安全审计与自动化办公场景。
68 0
|
2月前
|
数据采集 存储 监控
Python爬虫实战:批量下载亚马逊商品图片
Python爬虫实战:批量下载亚马逊商品图片
|
2月前
|
API 数据安全/隐私保护 Python
小红书批量发布协议, 抖音自动批量发布软件脚本,笔记作品视频自动发布工具【python】
这个工具框架包含了小红书和抖音的批量发布功能,支持图片和视频处理、定时发布等功能
|
2月前
|
数据采集 机器学习/深度学习 边缘计算
Python爬虫动态IP代理报错全解析:从问题定位到实战优化
本文详解爬虫代理设置常见报错场景及解决方案,涵盖IP失效、403封禁、性能瓶颈等问题,提供动态IP代理的12种核心处理方案及完整代码实现,助力提升爬虫系统稳定性。
120 0

推荐镜像

更多