Pandas用的6不6,来试试这道题就能看出来

简介: 近日,在实际工作中遇到了这样一道数据处理的实际问题,凭借自己LeetCode200+算法题和Pandas熟练运用一年的功底,很快就完成了。特此小结,以资后鉴!

题目描述:给定一组用户的多次行为起止时间表,由于相邻行为之间可能存在交叉(即后一行为的开始时间可能早于前一行为的结束时间),所以需根据用户ID对其相应的起止时间信息进行合并处理。不失一般性,模拟示例数据如下:


640.png


在上述示例数据中,用户A和用户B的多组行为间,均存在一定的起止时间交叉,例如用户A的两个行为起止时间分别为[3, 6]和[4, 7](同时,这里的两组行为开始时间先后顺序还是错的),存在交叉,所以可合并为[3, 7];类似地,用户B的两个行为起止时间分别为[4, 7]和[6, 8],也可合并为[4, 8]。


为完成以上这一小需求,实际上可拆解为两个小问题:

  • 给定同一用户的多组行为起始时间,根据起止时间的大小完成区间合并问题。实际上,这是LeetCode的一道原题


640.png

图片源自LeetCode56题截图


  • 在完成单个用户区间合并的基础上,如何处理多用户的区间合并以及最后结果的拼接问题。用Pandas的思维来讲,自然就是groupby的过程:split—aggregate(range combine)—union


首先,第一个小问题难度不大,直接实现一个自定义函数即可,示例代码如下,其中函数功能正常执行的前提是starts已按照从小到大的顺序完成排序,当然这一细节在pandas中很容易实现。


1def range_combine(starts, ends):
 2    # 在starts有序的前提下,完成区间合并
 3    combines = []
 4    for start, end in zip(starts, ends):
 5        if not combines or start > combines[-1][1]:
 6            combines.append([start, end])
 7        else:
 8            combines[-1][1] = max(combines[-1][1], end)
 9    return combines
10# 测试样例
11starts = [1, 3, 4, 8]
12ends = [2, 6, 7, 9]
13range_combine(starts, ends)
14# 输出 [[1, 2], [3, 7], [8, 9]]


为了实现第二个小功能,则需要一定的技巧实现。可以肯定的是,为了实现按用户分组进行区间合并,那么肯定要groupby('uid'),而后对每个grouper执行range_combine,得到各用户及其合并后的所有区间嵌套列表,进而问题转化为如何将这个嵌套列表再拆分为多行。这就涉及到Pandas中的一个有用的API——explode,即将一个序列分裂成多行,从如下的explode函数说明文档中可以看出,它接收一个或多个列名作为参数(即要拆分的列),当该列的取值是一个列表型的元素时,可以将其拆分,并将该行中其余元素复制多份,从而实现拆分的过程。


640.png


进而,可以完成各用户多个行为起止区间分裂成多行的过程,具体实现如下:


640.png


至此,已经完成了大部分功能实现,仅差最后一步,即将各用户的历次合并后的行为起止时间拆分为两列,分别表示开始和结束时间,这一过程可直接调用pd.Series实现重命名即可。最后给出这个需求的pandas一句代码完整实现过程:


640.png


一个现实需求,对应多个数据处理小技巧,这真是实践出真知啊!


640.png


目录
相关文章
|
10月前
|
Kubernetes API Docker
构建高效后端服务:微服务架构的深度实践与优化####
本文深入探讨了微服务架构在现代后端开发中的应用,通过剖析其核心概念、设计原则及实施策略,结合具体案例分析,展示了如何有效提升系统的可扩展性、可靠性和维护性。文章还详细阐述了微服务拆分的方法论、服务间通信的最佳实践、以及容器化与编排工具(如Docker和Kubernetes)的应用技巧,为读者提供了一份全面的微服务架构落地指南。 ####
|
运维 前端开发 JavaScript
SignalR在React/Go技术栈的实践
本文记录SignalR在react/golang 技术栈的生产小实践。
SignalR在React/Go技术栈的实践
|
1天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1069 0
|
10天前
|
人工智能 运维 安全
|
1天前
|
弹性计算 Kubernetes jenkins
如何在 ECS/EKS 集群中有效使用 Jenkins
本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成,以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线,提升软件交付效率并优化资源成本。
256 0
|
8天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
9天前
|
人工智能 测试技术 API
智能体(AI Agent)搭建全攻略:从概念到实践的终极指南
在人工智能浪潮中,智能体(AI Agent)正成为变革性技术。它们具备自主决策、环境感知、任务执行等能力,广泛应用于日常任务与商业流程。本文详解智能体概念、架构及七步搭建指南,助你打造专属智能体,迎接智能自动化新时代。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
749 23