〖数据挖掘〗weka3.8.6的安装与使用(2)

简介: 选择其中一个数据集打开,我选择的是vote.arff

2.打开自带的数据集(Preprocess)

1.打开步骤

选择openfile


2d0db6e99207c705e11f570ebde3b96b_80a83d63817b43eeb63dff1fa8b61e50.png


选择data文件

e963022d5841e57047ae2b046e6b7722_1f006d3c282f43fca20a650fc4bcadb0.png


这里我们可以看到一些weka自带的数据集


861ae43e106494560b7770cb15c4c1a8_468d19189e1c4a7b8ecbe141894ecaac.png


选择其中一个数据集打开,我选择的是vote.arff

91cfedeb8a33ba4906b70c389512167b_05d29e668a5746d68c33cd51023b290d.png



2.查看属性和数据编辑

2.1查看属性


选择属性,可以下拉查看并选择


fd33c1bcca00a7857dc568911de33b99_411d7e5d8a154f05a4c7b4edc4be3ee5.png



Visualize All:查看所有属性直方图

79793c7d775479e1772c5bb3597fe12f_b467e84288424be5946c50301e209527.png



2.2数据编辑


be9070fd9fc1dd09dd02db979c45686d_001043e1292641cb88faec51ded3d323.png


点击Edit,弹出viewer,在这里面可以查看并编辑数据。


51354468a7edb3d318bef007da7c0772_3dafa6212b744971944cc9d04d1e8f58.png


3.classify

分类是指根据事物的某些共同特征,将它们分成若干组或类别,以达到简化、归纳和管理的目的。在机器学习领域中,分类是指根据已有数据集中的特征和标签信息,训练出一个算法模型,用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型,其应用广泛,如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。


6f034f8a4c25574c21253b76b57b93bb_d5237fb1bdaa45ceb563ce22bfe3484f.png

9d7915cecf082d4b116d454e61ac2119_e66e72f21e6244c3b6b5ddd827b5331b.png



测试选项


Use training set:使用训练集

Supplied test set:提供测试集

Cross-validation:交叉验证

Percentage split:按比例分配

start:点击即用

4.Cluster

聚类是指根据一组数据的相似性,将它们分为若干个组或簇,使得同一个簇内的元素彼此相似,不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题,与分类问题不同,聚类问题中没有预先定义好的标签信息,需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域,是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。


c748462ef226b88d1857884448768601_b837b1cfd4b74607901c8a87081670fa.png


集群模式【Cluster mode】


Use training set:使用训练集

Supplied test set:提供测试集

Percentage split:比例分割

Classes to clusters evalation:类到聚类的评估

5.Associate

a033e52841e8838f6f84b4fa2b381de6_6faacb8663174c688e803a37c5b12138.png


6.Select attributes

078af5e483f4c089cfee16a992ebe500_8246a87ad7fd40f8a2ed8018931cb38b.png


属性选择模式


Use full training set:使用完整的训练集


Cross-validation:交叉验证

7.Visualize

c4c1493be258b02499c52323d2d729ac_fb79175aea5c4f5fb3cf9a61ae0cd6b2.png


update:更新

select attribute:选择属性

subsample:子样品

目录
相关文章
|
7月前
|
机器学习/深度学习 算法 数据可视化
〖数据挖掘〗weka3.8.6的安装与使用(1)
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费 的,非商业化软件,与之对应的是SPSS公司商业数据挖掘产品--Clementine ;weka是基于JAVA环境下开源的 机器学习(machine learning)以及数据挖掘(data mining)软件。Weka的主要开发者来自新西兰的怀卡托大学(The University of Waikato)。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的
83 0
|
机器学习/深度学习 存储 算法
数据挖掘系列(4)_Excel的数据挖掘插件_预测
使用预测向导可以预测时序中的值。 预测向导使用 Microsoft 时序算法,该算法是一个用于预测连续列(例如产品销售)的回归算法。
数据挖掘系列(4)_Excel的数据挖掘插件_预测
|
机器学习/深度学习 SQL 算法
数据挖掘系列(3)_Excel的数据挖掘插件_估计分析
本篇博客使用SQL Server的数据挖掘客户端插件来在Excel上面进行估计分析。
数据挖掘系列(3)_Excel的数据挖掘插件_估计分析
|
数据挖掘 Java BI
用 WEKA 进行数据挖掘 (1)简介和回归
用 WEKA 进行数据挖掘 (1)简介和回归
1990 0
|
机器学习/深度学习 算法 搜索推荐
Python数据挖掘与机器学习,快速掌握聚类算法和关联分析
前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题。分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问题?本文就为大家揭晓答案。
16224 0
|
数据采集 算法 数据可视化
|
机器学习/深度学习 算法 Java
使用Weka快速实践机器学习算法
【译者注】在当下人工智能火爆发展的局面,每时每刻都有新的技术在诞生,但如果你是一个新手,Weka或许能帮助你直观、快速的感受机器学习带来的解决问题的新思路。 Weka使机器学习的应用变得简单、高效并且充满乐趣。
2479 0
|
机器学习/深度学习 分布式计算 监控
|
机器学习/深度学习 存储 算法