在Python中,数据加载与格式转换

简介: 在Python中,数据加载与格式转换

在Python中,数据加载与格式转换是数据分析和机器学习任务中的常见操作。以下是一些常见的数据格式以及如何在Python中加载和转换它们:

  1. CSV 文件:
    加载:

    import pandas as pd
    
    # 加载CSV文件到一个DataFrame对象
    df = pd.read_csv('data.csv')
    

    转换为其他格式(例如转为Excel):

    df.to_excel('data.xlsx', index=False)
    
  2. Excel 文件:
    加载:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')  # 加载特定工作表
    

    转换为CSV:

    df.to_csv('data_converted.csv', index=False)
    
  3. JSON 文件:
    加载:

    import json
    
    # 加载JSON文件到Python字典或列表
    with open('data.json', 'r') as f:
        data = json.load(f)
    

    转换为DataFrame:

    df = pd.DataFrame(data)
    
  4. XML 文件:
    加载:

    import xml.etree.ElementTree as ET
    
    # 解析XML文件
    tree = ET.parse('data.xml')
    root = tree.getroot()
    
    # 根据XML结构手动构建DataFrame,通常需要定制处理逻辑
    data = []
    for element in root.iter('record'):  # 假设每个记录是一个名为'record'的元素
        record_data = {
         }
        for child in element:
            record_data[child.tag] = child.text
        data.append(record_data)
    df = pd.DataFrame(data)
    
  5. SQL 数据库:
    加载:

    import sqlite3
    from pandas import read_sql_query
    
    conn = sqlite3.connect('database.db')
    df = pd.read_sql_query("SELECT * FROM my_table", conn)
    
  6. Stata (.dta) 文件:
    加载:

    import pandas as pd
    
    df = pd.read_stata('data.dta')
    
  7. HDF5 或 feather 等二进制格式:
    加载:

    df = pd.read_hdf('data.h5', key='table_name')  # HDF5
    # 或者
    df = pd.read_feather('data.feather')  # Feather format
    

    写入:

    df.to_hdf('data_converted.h5', key='table_name', mode='w')  # HDF5
    df.to_feather('data_converted.feather')  # Feather format
    
  8. TFRecord 文件(用于TensorFlow数据集):
    加载/写入需要使用tf.data.TFRecordDatasettf.io模块的相关函数。

  9. 文本文件:
    加载简单文本文件可以使用内置的open()函数读取并按行处理。

以上代码片段仅展示了基本的加载和转换方法,实际应用中可能还需要对数据进行清洗、类型转换等额外处理。对于更复杂的数据结构和转换需求,请查阅对应库的文档以获取详细信息。

目录
相关文章
|
Python
python时间格式化/时间格式转换
python时间格式化/时间格式转换
174 0
|
机器学习/深度学习 文字识别 自然语言处理
Python图片格式转换与文字识别:技术与实践
Python图片格式转换与文字识别:技术与实践
466 0
python timedelta 求时间差省去繁琐格式转换
python timedelta 求时间差省去繁琐格式转换
python timedelta 求时间差省去繁琐格式转换
|
Python
Python编程:将markdown格式转换为rst格式
Python编程:将markdown格式转换为rst格式
336 0
|
Python
Python编程:将markdown格式转换为rst格式
Python编程:将markdown格式转换为rst格式
458 0
|
Python
python实现IP进制格式转换
版权声明:转载请注明出处:http://blog.csdn.net/dajitui2024 https://blog.csdn.net/dajitui2024/article/details/79396536 ...
1131 0
|
存储 XML 数据格式
《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式
第1章 准备工作第2章 Python语法基础,IPython和Jupyter第3章 Python的数据结构、函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门 第6章 数据加载、存储与文件格式第7章 数据清洗和准备第8章 数据规整:聚合、合并和重塑第9章 绘图和可视化第10章 数据聚合与分组运算第11章 时间序列第12章 pandas高级应用第13章 Python建模库介绍第14章 数据分析案例附录A NumPy高级应用附录B 更多关于IPython的内容(完) 访问数据是使用本书所介绍的这些工具的第一步。
1543 0

推荐镜像

更多