Dataset之Handwritten Digits:Handwritten Digits(手写数字图片识别)数据集简介、安装、使用方法之详细攻略-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Dataset之Handwritten Digits:Handwritten Digits(手写数字图片识别)数据集简介、安装、使用方法之详细攻略

简介: Dataset之Handwritten Digits:Handwritten Digits(手写数字图片识别)数据集简介、安装、使用方法之详细攻略
+关注继续查看

Handwritten Digits数据集的简介


      根据官方对数据集的描述,我们可以知道完整的手写体数字图像分为两个数据集合。其中,训练数据样本3823条,测试数据1797条,图像数据通过8X8的像素矩阵表示,共有64个像素维度。1个目标维度用来标记每个图像样本代表的数字类别。该数据没有缺失的特征值,并且不论是训练还是测试样本.在数字类别方面都采样得非常平均,是一份非常规整的数据集。


      We used preprocessing programs made available by NIST to extract normalized bitmaps of handwritten digits from a preprinted form. From  a total of 43 people, 30 contributed to the training set and different  13 to the test set. 32x32 bitmaps are divided into nonoverlapping   blocks of 4x4 and the number of on pixels are counted in each block.  This generates an input matrix of 8x8 where each element is an   integer in the range 0..16. This reduces dimensionality and gives   invariance to small distortions.


      我们使用NIST提供的预处理程序从预先打印的表单中提取手写数字的标准化位图。共有43人参加,其中30人参加了train,13人参加了test。32x32位图分为不重叠的4x4块,每个块中的像素数都计算在内。这将生成8x8的输入矩阵,其中每个元素都是0到16之间的整数。这减少了维数,并使小变形不变性。


Number of Instances:   optdigits.tra Training 3823  optdigits.tes Testing  1797    The way we used the dataset was to use half of training for   actual training, one-fourth for validation and one-fourth  for writer-dependent testing. The test set was used for   writer-independent testing and is the actual quality measure.


optdigits.tra  训练3823份+测试1797份。我们使用数据集的方法是将一半的训练用于实际训练,四分之一用于验证,四分之一用于依赖作者的测试。测试集用于独立于作者的测试,是实际的质量度量。


属性数64输入+1类属性7。对于每个属性:所有输入属性都是0到16范围内的整数。最后一个属性是类代码0..9 8。缺少属性值无


内容转载自:Optical Recognition of Handwritten Digits


9. Class Distribution

Class: No of examples in training set

0:  376

1:  389

2:  380

3:  389

4:  387

5:  376

6:  377

7:  387

8:  380

9:  382

Class: No of examples in testing set

0:  178

1:  182

2:  177

3:  183

4:  181

5:  182

6:  181

7:  179

8:  174


Handwritten Digits数据集的安装


点击对应数据文件即可下载!




数据集下载:https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/

训练集网址:https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra



Handwritten Digits数据集的使用方法


Two versions of this database available.

1) Preprocessed data can be found in optdigits.tra and optdigits.tes

  See optdigits.names for information regarding the preprocessing.

2) The original format of the data can be found in files prefixed with

  optdigits-orig.

Cathy Blake

Sept 3,1998

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
centos安装gitlab并进行数据迁移
centos安装gitlab并进行数据迁移
2939 0
github for windows 桌面版使用方法
  首先得去下载github for windows,搜索下GitHub Desktop就可以找到,然后安装   打开软件进入主界面,选择右上角的设置按钮,会弹出下拉菜单,选择options   没一个帐号绑定,点击...
600 0
QT编写图片数据转换工具
学习QT已经一个月了,觉得QT真是个好东西,他的这种跨平台机制简直太棒了!还有QML这东西,真牛B!在这段学习期间,因为一个项目的需要,需要将图片转成数据,然后传出去,那边接收到数据后再对应转换成图片,才有了下面这个小工具,开发环境:QT 4.7.0,在LINUX下面重新编译也可以在LINUX下面运行,代码不用改!先放张截图吧。
758 0
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
20 0
此行已从表中移除并且没有任何数据。BeginEdit() 将允许在此行中创建新数据
代码问题,例如:foreach (DataRow drow in dt.rows){   dt.rows.remove(drow);)就可能出现你说的错误。在遍历集合成员的时候,不能删除成员。
1171 0
同样指令bmp.LockBits不同平台(Windows/WinCE)获取位图的数据不同
同样指令bmp.LockBits不同平台(Windows/WinCE)获取位图的数据不同
366 0
ubuntu安装git及其使用方法
之前一直在windows上用git来把本地仓库push到远程仓库,但是最近博主安装了ububtu于是重新安装了个git,用来写此教程,下来一起学习吧 首先安装git  先检查一下git是否安装,在Terminal检查是否安装 git 如果没有安装在命令...
1176 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载