备案控制台

开发者社区问答正文

如何通过交叉验证测试未知的测试数据并预测标签？

1.包含数据（即文本描述）以及分类标签的CSV

df = pd.read_csv('./output/csv_sanitized_16_.csv', dtype=str)
X = df['description_plus']
y = df['category_id']

2.此CSV包含看不见的数据（即文本描述），需要对其预测标签

df_2 = pd.read_csv('./output/csv_sanitized_2.csv', dtype=str)
X2 = df_2['description_plus']

对以上训练数据（项目1）进行操作的交叉验证功能。

def cross_val():
    cv = KFold(n_splits=20)
    vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,
                                     stop_words='english')
    X_train = vectorizer.fit_transform(X) 
    clf = make_pipeline(preprocessing.StandardScaler(with_mean=False), svm.SVC(C=1))
    scores = cross_val_score(clf, X_train, y, cv=cv)
    print(scores)
    print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
cross_val()

我需要知道如何将看不见的数据（项目2）传递给交叉验证功能，以及如何预测标签？

问题来源：stackoverflow

展开

收起

is大龙 2020-03-24 17:49:52 758 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

is大龙

使用scores = cross_val_score（clf，X_train，y，cv = cv）只能得到模型的交叉验证分数。cross_val_score将根据cv参数在内部将数据分为训练和测试。

因此，您获得的值是SVC的交叉验证精度。

要获得看不见的数据的分数，您可以首先拟合模型，例如

clf = make_pipeline(preprocessing.StandardScaler(with_mean=False), svm.SVC(C=1))
clf.fit(X_train, y) # the model is trained now

然后执行clf.score（X_unseen，y）

最后一个将在看不见的数据上返回模型的准确性。

* 编辑：做您想要的最好的方法是下面使用GridSearch 首先使用训练数据找到最佳模型，然后使用看不见的（测试）数据评估最佳模型： from sklearn import svm, datasets from sklearn.model_selection import GridSearchCV from sklearn.model_selection import train_test_split from sklearn.model_selection import cross_val_score

# load some data
iris = datasets.load_iris()
X, y = iris.data, iris.target

#split data to training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

# hyperparameter tunig of the SVC model
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
svc = svm.SVC()

# fit the GridSearch using the TRAINING data
grid_searcher = GridSearchCV(svc, parameters)
grid_searcher.fit(X_train, y_train)

#recover the best estimator (best parameters for the SVC, based on the GridSearch)
best_SVC_model = grid_searcher.best_estimator_

# Now, check how this best model behaves on the test set
cv_scores_on_unseen = cross_val_score(best_SVC_model, X_test, y_test, cv=5)
print(cv_scores_on_unseen.mean())

回答来源：stackoverflow

2020-03-24 17:50:01

赞同展开评论

问答分类：

计算机视觉

问答标签：

测试数据测试标签测试未知测试测试数据测试预测

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

如研发流程测试阶段部署最后打个标签，生产流水线使用tag发布，具体云效生产流水线怎么使用tag发布？

119

1

0

如何创建测试数据用于数据传输DTS配置测试

85

1

0

AI Earth模型测试能否选择自己本地的测试数据呢？

76

1

0

AI Earth想测试一下在jupyter里面可不可以出一张带有指北针，比例尺，还有标签的图？

70

1

0

SchedulerX里这个路由规则是哪里测试的？让定时任务默认调度到某个特定的标签的机器要怎么做？

101

1

0

ModelScope模型微调后，对测试集模型推理，标签有点问题？

111

0

0

云效我标签只有测试环境：但我其实对应了两个k8s集群（测试A，测试B）环境，这种情况怎么处理呢？

112

4

0

云效我多几个环境，这个标签是预置的，怎么对应呢目前只有：开发，测试，预发，生产。我还有压测，集成？

151

4

0

内网测试服务器到钉钉服务策略已开，telnet能连通，但是测试服务请求钉钉接口报未知的名称或服务

308

2

0

应用研发平台EMAS移动推送按照标签来测试，为什么会收不到通知呢？

115

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何用"乐高式开发"实现前后端分离？

阿里云短信服务工程师连我方发送记录只会收阿里云错误码都不知道吗？

调用Dashscope接口时报错

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

我就想把本地的 vm 虚拟机迁移到 ECS，整的这些文档又臭又长，有这精力你录个视频不行吗？

相关文章

GIMP 3.0.6 (Linux, macOS, Windows) 发布 - 免费开源图像编辑器

淘宝拍立淘接口实战：图像优化、识别调优与避坑代码示例

AI 驱动的 AR眼镜巡检技术方案：让工业缺陷识别更精准高效｜阿法龙XR云平台

电子班牌管理系统源代码，基于AI人脸识别技术的智能电子班牌云平台解决方案

如何通过CDN进行智能图片处理？

还有其他疑问?