python大数据工作流程

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本文作者:hhh5460   大数据分析,内存不够用怎么办? 当然,你可以升级你的电脑为超级电脑。 另外,你也可以采用硬盘操作。 本文示范了硬盘操作的一种可能的方式。   本文基于:win10(64) + py3.

本文作者:hhh5460

 

大数据分析,内存不够用怎么办?

当然,你可以升级你的电脑为超级电脑。

另外,你也可以采用硬盘操作。

本文示范了硬盘操作的一种可能的方式。

 

本文基于:win10(64) + py3.5

 

本人电脑配置:4G内存

 

说明:

数据大小:5.6G

数据描述:自2010年以来,纽约的311投诉

数据来源:纽约开放数据官网(NYC's open data portal)

数据下载:https://data.cityofnewyork.us/api/views/erm2-nwe9/rows.csv?accessType=DOWNLOAD

import pandas as pd
import time

'''python大数据分析工作流程'''
# 5G大数据文件,csv格式
reader = pd.read_csv('311_Service_Requests_from_2010_to_Present.csv', iterator=True, encoding='utf-8')

# HDF5格式文件支持硬盘操作,不需要全部读入内存
store = pd.HDFStore('311_Service_Requests_from_2010_to_Present.h5')

# 然后用迭代的方式转换.csv格式为.h5格式
chunkSize = 100000
i = 0
while True:
    try:
        start = time.clock()
        
        # 从csv文件迭代读取
        df = reader.get_chunk(chunkSize)
        
        # 去除列名中的空格
        df = df.rename(columns={c: c.replace(' ', '') for c in df.columns})
        
        # 转换为日期时间格式
        df['CreatedDate'] = pd.to_datetime(df['CreatedDate'])
        df['ClosedDate'] = pd.to_datetime(df['ClosedDate'])

        # 感兴趣的列
        columns = ['Agency', 'CreatedDate', 'ClosedDate', 'ComplaintType', 
                   'Descriptor', 'TimeToCompletion', 'City']
        # 不感兴趣的列
        columns_for_drop = list(set(df.columns) - set(columns))
        df.drop(columns_for_drop, inplace=True, axis=1, errors='ignore')
        
        # 转到h5文件
        # 通过指定data_columns,建立额外的索引器,可提升查询速度
        store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])
        
        # 计时
        i += 1
        end = time.clock()
        print('{} 秒: completed {} rows'.format(end - start, i * chunksize))
    except StopIteration:
        print("Iteration is stopped.")
        break

        

# 转换完成之后,就可以选出想要进行数据分析的行,将其从硬盘导入到内存,如:
# 导入前三行
#store.select('df', "index<3")

# 导入 ComplaintType, Descriptor, Agency这三列的前十行
#store.select('df', "index<10 & columns=['ComplaintType', 'Descriptor', 'Agency']")

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency=='NYPD'的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency=='NYPD'").head(10)

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency IN ('NYPD', 'DOB')的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency IN ('NYPD', 'DOB')")[:10]


# ======================================
# 下面示范一个groupby操作
# 说明:由于数据太大,远超内存。因此无法全部导入内存。
# ======================================
# 硬盘操作:导入所有的 City 名称
cities = store.select_column('df','City').unique()
print("\ngroups:%s" % cities)

# 循环读取 city
groups = []
for city in cities:
    # 硬盘操作:按City名称选取
    group = store.select('df', 'City=%s' % city)

    # 这里进行你想要的数据处理
    groups.append(group[['ComplaintType', 'Descriptor', 'Agency']].sum())


print("\nresult:\n%s" % pd.concat(groups, keys = cities))

# 最后,记得关闭
store.close()

 

 

附:

运行过程中出现了一个错误

 

把上面的:

# 转到h5文件
# 通过指定data_columns,建立额外的索引器
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])

 

改为:

# 转到h5文件
# 通过指定data_columns,建立额外的索引器
# 通过指定min_itemsize,设定存储混合类型长度
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'], min_itemsize = {'values': 50})

 关于min_itemsize详情,见:http://pandas.pydata.org/pandas-docs/stable/io.html#storing-types

 

参考:

https://plot.ly/python/big-data-analytics-with-pandas-and-sqlite/

http://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas

http://python.jobbole.com/84118/

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
5月前
|
测试技术 API 数据处理
Python办公自动化:解锁高效工作流程,掌握文档处理的艺术
Python办公自动化:解锁高效工作流程,掌握文档处理的艺术
170 1
|
11月前
|
数据采集 监控 数据处理
Python自动化与脚本编写:提升效率与简化工作流程
Python自动化与脚本编写:提升效率与简化工作流程
|
1天前
|
机器学习/深度学习 人工智能 数据可视化
Python比较适合哪些场景的编程?
Python比较适合哪些场景的编程?
14 7
|
1天前
|
大数据 Python
Python 高级编程:深入探索高级代码实践
本文深入探讨了Python的四大高级特性:装饰器、生成器、上下文管理器及并发与并行编程。通过装饰器,我们能够在不改动原函数的基础上增添功能;生成器允许按需生成值,优化处理大数据;上下文管理器确保资源被妥善管理和释放;多线程等技术则助力高效完成并发任务。本文通过具体代码实例详细解析这些特性的应用方法,帮助读者提升Python编程水平。
18 5
|
6天前
|
数据挖掘 索引 Python
Python数据挖掘编程基础3
字典在数学上是一个映射,类似列表但使用自定义键而非数字索引,键在整个字典中必须唯一。可以通过直接赋值、`dict`函数或`dict.fromkeys`创建字典,并通过键访问元素。集合是一种不重复且无序的数据结构,可通过花括号或`set`函数创建,支持并集、交集、差集和对称差集等运算。
15 9
|
3天前
|
存储 数据处理 开发者
深入浅出:Python编程基础与实战技巧
【9月更文挑战第32天】本文将引导读者从零开始,掌握Python编程语言的核心概念,并通过实际代码示例深入理解。我们将逐步探索变量、数据结构、控制流、函数、类和异常处理等基本知识,并结合实用案例,如数据处理、文件操作和网络请求,提升编程技能。无论您是初学者还是有一定经验的开发者,这篇文章都能帮助您巩固基础,拓展视野。
|
2天前
|
数据采集 机器学习/深度学习 人工智能
Python编程之旅:从基础到精通
【9月更文挑战第32天】本文将带你进入Python的世界,从基础语法到高级特性,再到实战项目,让你全面掌握Python编程技能。无论你是初学者还是有一定基础的开发者,都能在这篇文章中找到适合自己的学习路径和方法。让我们一起踏上Python编程之旅,开启一段充满挑战和乐趣的学习历程吧!
|
6天前
|
存储 开发者 Python
探索Python编程的奥秘
【9月更文挑战第29天】本文将带你走进Python的世界,通过深入浅出的方式,解析Python编程的基本概念和核心特性。我们将一起探讨变量、数据类型、控制结构、函数等基础知识,并通过实际代码示例,让你更好地理解和掌握Python编程。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到新的启示和收获。让我们一起探索Python编程的奥秘,开启编程之旅吧!
|
6天前
|
Python
Python编程的循环结构小示例(二)
Python编程的循环结构小示例(二)
下一篇
无影云桌面