python计算的效率问题-pandas、numpy结合代替遍历pandas数据

简介: python计算的效率问题-pandas、numpy结合代替遍历pandas数据

越来越考虑效率的问题了,以前写代码只要能够实现自己想要的功能就行,现在,既要实现自己想要的功能,又追求高的效率,也许,在码农的道路上,越走越远了(_-_)

原始数据如下:20180211094359881.png


计算那一天是月初,原先使用的方法为:在这种情况下,遍历pandas,明显效率很不高

def get_yuechu(data):
    for i in range(len(data)):
        if i>1 and str(data.ix[i,'date'])[5:7]!=str(data.ix[i-1,'date'])[5:7]:
            data.ix[i,'yuechu']=True
        else:
            data.ix[i,'yuechu']=False
    return data

接下来对计算那天是月初的方法做了改进,改进之后,效率有了明显的提升

def get_yuechu(data):
    data['date_yue']=[i[5:7] for i in data['date']]
    data['yestoday_yue']=data['date_yue'].shift(1)
    data['yuechu']=np.where(data['date_yue']!=data['yestoday_yue'],True,False)
    return data


目录
相关文章
|
监控 物联网 数据处理
Pandas高级数据处理:数据流式计算
本文介绍了如何使用 Pandas 进行流式数据处理。流式计算能够实时处理不断流入的数据,适用于金融交易、物联网监控等场景。Pandas 虽然主要用于批处理,但通过分块读取文件、增量更新 DataFrame 和使用生成器等方式,也能实现简单的流式计算。文章还详细讨论了内存溢出、数据类型不一致、数据丢失或重复及性能瓶颈等常见问题的解决方案,并建议在处理大规模数据时使用专门的流式计算框架。
764 100
Pandas高级数据处理:数据流式计算
|
Python
Python中Cp、Cpk、Pp、Ppk的计算与应用
总的来说,Cp、Cpk、Pp、Ppk是衡量过程能力的重要工具,它们可以帮助我们了解和改进生产过程,提高产品质量。
1681 13
|
消息中间件 数据挖掘 数据处理
Pandas高级数据处理:数据流式计算
在大数据时代,Pandas作为Python强大的数据分析库,在处理结构化数据方面表现出色。然而,面对海量数据时,如何实现高效的流式计算成为关键。本文探讨了Pandas在流式计算中的常见问题与挑战,如内存限制、性能瓶颈和数据一致性,并提供了详细的解决方案,包括使用`chunksize`分批读取、向量化操作及`dask`库等方法,帮助读者更好地应对大规模数据处理需求。
327 17
|
存储 人工智能 算法
使用Python计算从位置x到y的最少步数
本文通过Python代码结合广度优先搜索(BFS)算法,解决从起点到终点的最少步数问题。以二维网格为例,机器人只能上下左右移动,目标是最短路径。BFS按层遍历,确保首次到达终点即为最短路径。文中提供完整Python实现,包括队列与访问标记数组的使用,并输出示例结果。此外,还探讨了双向BFS、Dijkstra及A*算法等优化方法,帮助读者深入理解最短路径问题及其高效解决方案。
351 0
|
分布式计算 并行计算 数据处理
Pandas高级数据处理:并行计算
Pandas是Python中广泛使用的数据分析库,随着数据量增加,单线程处理速度成为瓶颈。本文介绍Pandas并行计算的基本概念、方法及常见问题的解决方案。并行计算通过多线程、多进程或分布式框架(如Dask)实现,充分利用多核CPU优势。文章详细解释了数据分割、内存占用和线程/进程间通信等问题,并提供了代码示例。最后总结了常见报错及其解决方法,帮助开发者提升数据处理效率。
616 3
|
Python
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
315 18
|
Python
使用Python计算字符串的SHA-256散列值
使用Python计算字符串的SHA-256散列值
495 7
|
数据处理 Python
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具。本文通过问题解答形式,深入探讨Pandas与NumPy的高级操作技巧,如复杂数据筛选、分组聚合、数组优化及协同工作,结合实战演练,助你提升数据处理能力和工作效率。
255 5
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
489 2
|
存储 数据采集 数据处理
效率与精准并重:掌握Pandas与NumPy高级特性,赋能数据科学项目
在数据科学领域,Pandas和NumPy是Python生态中处理数据的核心库。Pandas以其强大的DataFrame和Series结构,提供灵活的数据操作能力,特别适合数据的标签化和结构化处理。NumPy则以其高效的ndarray结构,支持快速的数值计算和线性代数运算。掌握两者的高级特性,如Pandas的groupby()和pivot_table(),以及NumPy的广播和向量化运算,能够显著提升数据处理速度和分析精度,为项目成功奠定基础。
353 2

推荐镜像

更多