文档备案控制台

开发者社区问答正文

Pandas重叠重采样

我想对我的时间索引DataFrame进行一些重采样。

例如：

>>> df
                     data
date                     
2018-03-09 12:00:00     1
2018-03-09 12:00:01     1
2018-03-09 12:00:02     1
2018-03-09 12:00:03     1
2018-03-09 12:00:04     1
2018-03-09 12:00:05     1
2018-03-09 12:00:06     1
2018-03-09 12:00:07     1
2018-03-09 12:00:08     1
2018-03-09 12:00:09     1
2018-03-09 12:00:10     1
2018-03-09 12:00:11     2
2018-03-09 12:00:12     2
2018-03-09 12:00:13     2
2018-03-09 12:00:14     2
2018-03-09 12:00:15     2
2018-03-09 12:00:16     2
2018-03-09 12:00:17     2
2018-03-09 12:00:18     2
2018-03-09 12:00:19     2
2018-03-09 12:00:20     2
2018-03-09 12:00:21     3
2018-03-09 12:00:22     3
2018-03-09 12:00:23     3
2018-03-09 12:00:24     3
2018-03-09 12:00:25     3
2018-03-09 12:00:26     3
2018-03-09 12:00:27     3
2018-03-09 12:00:28     3
2018-03-09 12:00:29     3
2018-03-09 12:00:30     3

经过10秒和2秒的重叠重采样后，结果应如下所示：

>>> df
                     data
date                     
2018-03-09 12:00:10     14
2018-03-09 12:00:20     28
2018-03-09 12:00:30     34

我尝试将其分组，但是在大型数据集上却非常慢。

是否有一种快速有效的方法来实现这一目标？

问题来源：stackoverflow

展开

收起

is大龙 2020-03-24 15:57:30 639 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

is大龙

假设您的数据是规则间隔的，则可以“合并”移位后的序列，然后求和。

N = 10  # Every 10 seconds from first row
ov = 2  # 2s overlap on either side

pd.concat([df.shift(i).iloc[::N] for i in range(-ov, N+ov)], axis=1).sum(1)

*

date 2018-03-09 12:00:00 3.0 2018-03-09 12:00:10 15.0 2018-03-09 12:00:20 28.0 2018-03-09 12:00:30 34.0 dtype: float64 *对于多列，将其沿列轴变成groupby： df['data2'] = df['data']+1 # Another column

(pd.concat([df.shift(i).iloc[::N] for i in range(-ov, N+ov)], axis=1)
   .groupby(level=0, axis=1).sum())

                     data  data2
date                            
2018-03-09 12:00:00   3.0    6.0
2018-03-09 12:00:10  15.0   28.0
2018-03-09 12:00:20  28.0   42.0
2018-03-09 12:00:30  34.0   46.0

回答来源：stackoverflow

2020-03-24 15:57:38

赞同展开评论

问答分类：

索引

问答标签：

Pandas重采样

问答地址：

开发者社区 > 云计算 > 问答

相关问答

pandas中从SQL表/库导入数据的方法是什么？

573

1

0

如何导入pandas库和查询相应版本的信息？

659

1

0

用于创建散点图矩阵的pandas库工具的名称是什么？

537

1

0

Pandas库的数据排序.sort_index()方法有什么意思？

479

1

0

Pandas库的数据排序有什么方法？

494

1

0

Pandas库series索引有哪些？

429

1

0

Pandas库series索引有几种？

373

1

0

pandas库的pd.merge函数中的indicator是什么？

1220

1

0

pandas库的pd.merge函数copy是什么？

810

1

0

pandas库的pd.merge函数suffixes是什么？

1938

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

notebook启动安全验证一直失败

MacBook端Clion编辑器的通义灵码代码自动补全功能失效

vllm部署模型，参数如何指定

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

相关文章

蓝易云：比较Oracle和MySQL的语法差异。

前端面试题(ES6框架)

区块链不是银弹，但在供应链溯源这件事上，它真的“对路”了

下载了个AI模型怎么这么多文件？解密HuggingFace的神秘清单

为什么 Elasticsearch 搜索这么快？深入理解倒排索引与分词器原理

还有其他疑问?