备案控制台

开发者社区问答正文

如何将数据集分割/划分为训练和测试数据集，例如进行交叉验证？

将NumPy数组随机分为训练和测试/验证数据集的好方法是什么？与Matlab中的cvpartition或crossvalind函数类似。问题来源于stack overflow

展开

收起

保持可爱mmm 2020-02-08 13:31:25 899 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

保持可爱mmm

如果要将数据集分成两半，可以使用numpy.random.shuffle，或者numpy.random.permutation需要跟踪索引：

import numpy

x is your dataset

x = numpy.random.rand(100, 5) numpy.random.shuffle(x) training, test = x[:80,:], x[80:,:] 要么

import numpy

x is your dataset

x = numpy.random.rand(100, 5) indices = numpy.random.permutation(x.shape[0]) training_idx, test_idx = indices[:80], indices[80:] training, test = x[training_idx,:], x[test_idx,:] 有多种方法可以重复分区同一数据集以进行交叉验证。一种策略是从数据集中重复采样：

import numpy

x is your dataset

x = numpy.random.rand(100, 5) training_idx = numpy.random.randint(x.shape[0], size=80) test_idx = numpy.random.randint(x.shape[0], size=20) training, test = x[training_idx,:], x[test_idx,:] 最后，sklearn包含几种交叉验证方法（k折，nave -n-out等）。它还包括更高级的“分层抽样”方法，该方法可创建相对于某些功能平衡的数据分区，例如，确保训练和测试集中的正例和负例比例相同。

2020-02-08 13:31:39

赞同展开评论

问答分类：

Python

问答标签：

测试验证训练测试分割训练测试数据集训练测试分割测试

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

如何测试vvp作业以验证其是否按预期处理Kafka消息并更新Hologres表？

42

1

0

如何验证Benchmarking测试方法的合理性？

51

1

0

如何建立指标的测试规范以提高验证效率？

53

1

0

dsw结合swift训练和测试怎么做？

33

0

0

视觉智能平台阿里云商品分割的python sdk调用示例代码为什么在windows测试能正确执行？

61

2

0

在应用研发平台EMAS中，后续测试验证时没法收到推送了，这个是有生效时间么？

30

1

0

结合语义的说话人日志系统在哪些数据集上进行了测试，结果如何？

34

1

0

FunASR离线文件转写软件包3.0的识别效果测试使用了哪些数据集？

42

1

0

我这边测试一直报错找不到jar包

542

1

0

使用GPT3中文1.3B参数量文本生成模型测试，报错

784

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

在工作中如何成为一个“不纠结”的人？

相关文章

探索绝对零度的极限：量子计算机的冷却技术

淘宝图片搜索商品列表API接口全攻略

使用Python和DeepSeek进行联网搜索的实践指南

另类却不罕见的聚合运算

探秘文件共享服务之哈希表助力 Python 算法实现

还有其他疑问?