〖数据挖掘〗weka3.8.6的安装与使用（2）-阿里云开发者社区

〖数据挖掘〗weka3.8.6的安装与使用（2）

2023-10-27 66

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 选择其中一个数据集打开，我选择的是vote.arff

2.打开自带的数据集(Preprocess)

1.打开步骤

选择openfile

2d0db6e99207c705e11f570ebde3b96b_80a83d63817b43eeb63dff1fa8b61e50.png

选择data文件

e963022d5841e57047ae2b046e6b7722_1f006d3c282f43fca20a650fc4bcadb0.png

这里我们可以看到一些weka自带的数据集

861ae43e106494560b7770cb15c4c1a8_468d19189e1c4a7b8ecbe141894ecaac.png

选择其中一个数据集打开，我选择的是vote.arff

91cfedeb8a33ba4906b70c389512167b_05d29e668a5746d68c33cd51023b290d.png

2.查看属性和数据编辑

2.1查看属性

选择属性，可以下拉查看并选择

fd33c1bcca00a7857dc568911de33b99_411d7e5d8a154f05a4c7b4edc4be3ee5.png

Visualize All：查看所有属性直方图

79793c7d775479e1772c5bb3597fe12f_b467e84288424be5946c50301e209527.png

2.2数据编辑

be9070fd9fc1dd09dd02db979c45686d_001043e1292641cb88faec51ded3d323.png

点击Edit，弹出viewer，在这里面可以查看并编辑数据。

51354468a7edb3d318bef007da7c0772_3dafa6212b744971944cc9d04d1e8f58.png

3.classify

分类是指根据事物的某些共同特征，将它们分成若干组或类别，以达到简化、归纳和管理的目的。在机器学习领域中，分类是指根据已有数据集中的特征和标签信息，训练出一个算法模型，用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型，其应用广泛，如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。

6f034f8a4c25574c21253b76b57b93bb_d5237fb1bdaa45ceb563ce22bfe3484f.png

9d7915cecf082d4b116d454e61ac2119_e66e72f21e6244c3b6b5ddd827b5331b.png

测试选项

Use training set：使用训练集

Supplied test set：提供测试集

Cross-validation：交叉验证

Percentage split：按比例分配

start：点击即用

4.Cluster

聚类是指根据一组数据的相似性，将它们分为若干个组或簇，使得同一个簇内的元素彼此相似，不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题，与分类问题不同，聚类问题中没有预先定义好的标签信息，需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域，是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。

c748462ef226b88d1857884448768601_b837b1cfd4b74607901c8a87081670fa.png

集群模式【Cluster mode】

Use training set：使用训练集

Supplied test set：提供测试集

Percentage split：比例分割

Classes to clusters evalation：类到聚类的评估

5.Associate

a033e52841e8838f6f84b4fa2b381de6_6faacb8663174c688e803a37c5b12138.png

6.Select attributes

078af5e483f4c089cfee16a992ebe500_8246a87ad7fd40f8a2ed8018931cb38b.png

属性选择模式

Use full training set：使用完整的训练集

Cross-validation：交叉验证

7.Visualize

c4c1493be258b02499c52323d2d729ac_fb79175aea5c4f5fb3cf9a61ae0cd6b2.png

update:更新

select attribute：选择属性

subsample：子样品

〖数据挖掘〗weka3.8.6的安装与使用（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景