文档备案控制台

开发者社区问答正文

怎么创建python数据集

怎么创建python数据集

展开

收起

云计算小粉 2018-05-10 20:11:06 3518 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

呵呵贺辰

我啦啦啦啦

列表的创建：
list_test=['张三', '李四', '王五']
或
list_test = list('王五')

2019-07-17 22:25:41

赞同展开评论
xuning715

摘要：有时候我们只需要数据集中的一部分，并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。
应用场景：
我有10W行数据，每一行都11列的属性。
现在，我们只需要随机抽取其中的2W行。
实现方法很简单：
利用Pandas库中的sample。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
n是要抽取的行数。（例如n=20000时，抽取其中的2W行）
frac是抽取的比列。（有一些时候，我们并对具体抽取的行数不关系，我们想抽取其中的百分比，这个时候就可以选择使用frac，例如frac=0.8，就是抽取其中80%）
replace抽样后的数据是否代替原DataFrame()
weights这个是每个样本的权重，具体可以看官方文档说明。
random_state这个在之前的文章已经介绍过了。
axis是选择抽取数据的行还是列。axis=0的时是抽取行，axis=1时是抽取列（也就是说axis=1时，在列中随机抽取n列，在axis=0时，在行中随机抽取n行）
—————————————————————————————————————————————————————————
具体用法：
假设DataFrame为df
[python] view plain copy
import pandas as pd
df.sample(n=20000)
另外，介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。
[python] view plain copy
import numpy as np
[python] view plain copy
np.random.sample(Your_index)

2019-07-17 22:25:41

赞同展开评论

问答分类：

Python

问答标签：

Python数据集 Python创建

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在ModelScope中，用python sdk下载的数据集文件名称全是乱码？

529

3

0

nginx配置了正式ssl证书，python加载数据集也是ssl通信失败。openssl检查有自签名

141

0

0

如果用python微调的话，ModelScope数据集是不是得注册？

143

0

0

ModelScope llm微调用python的时候，怎么使用自己的数据集？

121

0

0

获取开源数据集，在AI Earth平台上先进行波段合并之后再下载。这个过程能否用Python代码？

103

1

0

老师们好，请问做text2sql，想用Python读取mysql数据库组装本地数据集，如何用pipl

544

1

0

请问我的一个python脚本想直接在函数计算中跑，这个脚本是一直运行的状态，但创建函数我看到都有执行

1231

1

0

在dataworks上面,创建python节点, 跑任务,费用怎么计算? 复杂度会增加嘛

738

1

0

如果我使用python语言编写，在initialize的时候根据环境变量中创建了一个oss的clie

1002

1

0

Python机器学习中在对鸢尾花数据集进行聚类时，出现与真值相比预测结果全部都是判断错误是为什么？

788

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于Lingma - 阿里云 AI 编码助手超时

关于Qwen3.5小模型的性能问题

我的显卡有20G左右的显存,想部署一个支持多模态的量化版的qwen3.5模型,请各位给个建议。

【求助】阿里云部署OpenClaw，企业微信长连接配置成功，但机器人无响应。

openclaw在windows环境下本地部署碰到一个棘手问题

相关文章

Python 爬虫实战：批量抓取应用商店分类应用

别再单卡硬扛了：一文讲透 Python 多 GPU / 分布式训练怎么写（附完整实战代码）

构建真实项目OpenClaw框架：与大模型协作及共同反思

本地自动化工具零代码开箱即用 1949AI 适配个人办公单机轻量化运行

【论文复现】风光制氢合成氨系统优化研究附Python代码

还有其他疑问?