2.打开自带的数据集(Preprocess)
1.打开步骤
选择openfile
选择data文件
这里我们可以看到一些weka自带的数据集
选择其中一个数据集打开,我选择的是vote.arff
2.查看属性和数据编辑
2.1查看属性
选择属性,可以下拉查看并选择
Visualize All:查看所有属性直方图
2.2数据编辑
点击Edit,弹出viewer,在这里面可以查看并编辑数据。
3.classify
分类是指根据事物的某些共同特征,将它们分成若干组或类别,以达到简化、归纳和管理的目的。在机器学习领域中,分类是指根据已有数据集中的特征和标签信息,训练出一个算法模型,用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型,其应用广泛,如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。
测试选项
Use training set:使用训练集
Supplied test set:提供测试集
Cross-validation:交叉验证
Percentage split:按比例分配
start:点击即用
4.Cluster
聚类是指根据一组数据的相似性,将它们分为若干个组或簇,使得同一个簇内的元素彼此相似,不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题,与分类问题不同,聚类问题中没有预先定义好的标签信息,需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域,是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。
集群模式【Cluster mode】
Use training set:使用训练集
Supplied test set:提供测试集
Percentage split:比例分割
Classes to clusters evalation:类到聚类的评估
5.Associate
6.Select attributes
属性选择模式
Use full training set:使用完整的训练集
Cross-validation:交叉验证
7.Visualize
update:更新
select attribute:选择属性
subsample:子样品