生死竞速最后20分钟拯救一道Pandas作业

简介: 一道Pandas作业
👉作者主页: 小小明-代码实体

👉简介:Python领域优质创作者🏆、数据处理专家✌

👉欢迎点赞 👍 收藏 ⭐留言 📝


昨晚有位童鞋一道Pandas面试题完全没有思路不会做,通过黄同学找到我时,这道题目离提交答案仅剩20分钟,不过我最终还是在15分钟之内解决了问题,这整个过程简直是刺激~😱😱😱

原题题目如下:

最终要求输出:

要在20分钟内解决这个问题,对于我来说最困难的第一步就是理解题意,作为一名英文渣渣,硬看这个还是理解的太慢。ε=ε=ε=(#>д<)ノ啊啊啊,简直是生死竞速啊,怎么办?

最终我使用了腾讯翻译官进行辅助,翻译结果如下:

有了图片翻译工具,这个题目总算理解了。

我总结一下四个规则要求:对于每一天的每一支股票,会有N个来源的价格,去掉空值后优先选择最频繁出现的价格,出现次数全部一样时选择来源id最小的价格,当天该股票全部都是空值时,选择前一个交易日的价格。

搞清楚了规则就可以开始整理数据了,这里我手敲编辑了数据为:

date ticker price source_id
2013/1/2 AAPL 515.61 0
2013/1/2 AAPL 515.62 1
2013/1/2 AAPL 515.62 2
2013/1/3 AAPL 515.16 0
2013/1/3 AAPL 515.17 1
2013/1/3 AAPL 515.18 2
2013/1/4 AAPL 0
2013/1/4 AAPL 515.45 1
2013/1/4 AAPL 515.47 2
2013/1/7 AAPL 0
2013/1/7 AAPL 1
2013/1/7 AAPL 2
2013/1/8 AAPL 527.28 0
2013/1/8 AAPL 528.29 1

保存Excel文件。

已经耗时10分钟了😧怎么办?怎么办?😱

不过也已经到了我最擅长的编码阶段,开干吧❗❗❗

首先使用pandas读取数据:

import pandas as pd

df = pd.read_excel("股票数据.xlsx")
df

这四个规则,直接使用pandas本身的方法会导致代码较为臃肿。由于时间紧迫,这里我直接使用万能的循环来解决这个问题,最终完整代码如下:

result = []
for (date, ticker), split in df.groupby(["date", "ticker"]):
    prices = split.price.mode()
    if prices.shape[0] > 0:
        price = split.price.mode().iat[0]
    else:
        price = last
    result.append((date, ticker, price))
    last = price
result = pd.DataFrame(result, columns=["date", "ticker", "price"])
result

结果:

可以看到结果满足题目的四点规则要求,历时5分钟编码终于搞定了。😪长舒一口气压压惊~

做完后我立马将代码和截图发给了对方,对方也在提交答案后立马回了我一个红包。

但是表达看不懂,希望我写篇文章:

既然如此,那么我就写下这篇文章来详解这其中的几个小知识点。虽然其实这其中涉及的内容比我以前的老文章要简单20倍以上,不太屑于写,但黄同学都这样邀请了,我就逼自己写一把吧😂

首先呢,我们将整个datafream按照每天每支股票拆分成一个个的Datafream:

for (date, ticker), df_split in df.groupby(["date", "ticker"]):
    print(date, ticker)
    display(df_split)

结果如下:

可以看到这支股票的每一天的数据都被拆分了出来。

取最频繁的价格,我们可以使用众数:

df_split.price.mode()
0    527.28
1    528.29
dtype: float64

这种形式表示众数不止一个,表示出现次数一致,此时规则2要求选择来源id最小的价格,由于数据本身是按照来源id从小到大排序的,那么我们直接取第一个众数即可:

df_split.price.mode().iat[0]
527.28

但是问题是,某个分组可能出现价格全部为空值的情况,此时规则要求取前一个分组的价格,这也是我直接使用循环来解决这个问题的原因,因为可以通过一个变量记录前一次遍历分组的结果。

当然为了避免数据源可能出现无序的情况的情况,我们需要事先对数据进行排序:

df.sort_values(["ticker", "date", "source_id"], inplace=True)

最后我将所有的结果数据都保存到了一个列表中,通过DataFrame的构造函数则可以直接根据一个列表生成一个DataFrame,columns参数指定了列名。

额,感觉实在太过于基础已经没啥可写的了,推荐几篇老文章吧:

相关文章
|
安全 IDE JavaScript
sonarqube安装并配置CI/CD
sonarqube安装并配置CI/CD
|
安全 Linux
在Linux中,如何在Linux下移动、复制和删除文件或目录?
在Linux中,如何在Linux下移动、复制和删除文件或目录?
|
9天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
7天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
357 130
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
7天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
348 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
20天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1338 8
|
1天前
|
存储 JSON 安全
加密和解密函数的具体实现代码
加密和解密函数的具体实现代码
189 136
|
6天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。