开发者社区> 禾路> 正文

神经网络研究项目--以工程师的视角

简介: 机器学习研究项目--以机器视觉工程师的视角(MLP篇)   一、机器学习的基本概念和区分;         机器学习的概念已经出现很长时间了,它本身也形成复杂的学科分类。
+关注继续查看

                                   机器学习研究项目--以机器视觉工程师的视角(MLP篇)

 
一、机器学习的基本概念和区分;
        机器学习的概念已经出现很长时间了,它本身也形成复杂的学科分类。这里基于相关资料学习,进行简单的定义和区分。由于经验有限,出现错误,欢迎提出修改意见。
        定义机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。
        对于我们做图像处理的具体项目,主要就是利用机器学习的方法,通过对大量数据的统计和挖掘,使得机器能够自动识别、分割、处理图像中展现的物体。
        区分
         1)bp神经网络,诞生80年代末期,第一次实现让一个人工神经网络模型从大量训练样本中学习统计规律,从而对未知事件做预测。bp最原始是3层的,多层的实现叫做MLP。
         2)svm是一种基于统计学习理论的模式识别方法,它在结构风险最小化的基础上,为两种不同类别的样本数据找到一个最优分类面;
         3)boost指的是一种将弱学习算法提升为强学习算法的一类算法;
         4)dl和在图像处理用途广泛的CNNs dl的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。 
         CNNs 是第一个真正成功训练多层网络结构的学习算法,在图像处理领域广泛使用。
        相关概念:
        机器模仿的是人类,所以无论哪种机器学习算法,统计处理的都是图片的特征。而这里的特征主要指的是不同物体的边缘线。大脑不断抽象这些特征,并且最终认识物体。而机器模仿这一过程。
二、作为机器视觉工程师需要掌握的工具和技术;
        源自数学和生物学的机器学习理论,借助计算机的强大运算能力,不断改造我们的工程实践。作为一名专注于图像处理和机器视觉的程序员,在初步理解机器学习相关概念的基础上,我更关注1)现在已经存在了哪些工具;2)如何利用这些工具来解决现实问题。
        这里主要研究实现MLP和CNNs。设计到的工具为Opencv和专门用来解决CNNs问题的代码,数据集是Mnist。
三、实际项目和统计分析;
       1)简介
       Mnist是一个专门用来进行神经网络训练的数据集,其中主要包含的内容是收集的手写体阿拉伯数字。原始网站上面提供4个文件,分别对应的是训练图像、训练图像对应的标签;测试图像、测试图像对应的标签。由于Mnist的数据并不是采用图片格式保持的,所以我这里采用的是处理好的Mnist的数据,分为Train和Test两个文件夹,其中的数据都已经按照对应的名称命名好了。
       这里实现两项内容,即采用MLP的方法对Mnist的训练数据进行交叉检验和对其Test数据进程测试。
       2)核心内容
       1.取特征的方法,由于MlP是需要自己设定特征的,这里借助<<master opencv >>书中的取特征方法,主要思想就是横向纵向的投影。
    
    // 获取垂直和水平方向直方图
    Mat ProjectedHistogram(Mat img, int t)
    {
    int sz=(t)?img.rows:img.cols;
    Mat mhist=Mat::zeros(1,sz,CV_32F);
    for(int j=0; j<sz; j++){
        Mat data=(t)?img.row(j):img.col(j);
        mhist.at<float>(j)=countNonZero(data);   
    }
    //Normalize histogram
    double min, max;
    minMaxLoc(mhist, &min, &max);
    if(max>0)
        mhist.convertTo(mhist,-1 , 1.0f/max, 0);
    return mhist;
    }
//获得特征
   Mat features(Mat in, int sizeData)
   {
    //Histogram features
    Mat vhist=ProjectedHistogram(in,VERTICAL);
    Mat hhist=ProjectedHistogram(in,HORIZONTAL);
    //Low data feature
    Mat lowData;
    resize(in, lowData, Size(sizeData, sizeData) );
    //Last 10 is the number of moments components
    int numCols=vhist.cols+hhist.cols+lowData.cols*lowData.cols;
    Mat out=Mat::zeros(1,numCols,CV_32F);
    int j=0;
    for(int i=0; i<vhist.cols; i++)
    {
        out.at<float>(j)=vhist.at<float>(i);
        j++;
    }
    for(int i=0; i<hhist.cols; i++)
    {
        out.at<float>(j)=hhist.at<float>(i);
        j++;
    }
    for(int x=0; x<lowData.cols; x++)
    {
        for(int y=0; y<lowData.rows; y++){
            out.at<float>(j)=(float)lowData.at<unsigned char>(x,y);
            j++;
        }
    }
    //if(DEBUG)
    //    cout << out << "\n===========================================\n";
    return out;
}
         2.Opencv中提供的MLP相关函数,核心为CNN的创建。这里的layers不是神经网络层,而是Opencv对MLP创建定义的一种参数输入方式。里面有两点是可以修改的,一个是_neurons,这个对应的是神经网络层数;一个是CvANN_MLP::SIGMOID_SYM对应的是ann的训练方法.
           
    Mat layers(13, CV_32SC1);
    layers.at<int>(0= TrainingData.cols;
    layers.at<int>(1= _neurons;
    layers.at<int>(2= numCharacter;
    ann.create(layers, CvANN_MLP::SIGMOID_SYM, 11);
    //CvANN_MLP::IDENTITY, CvANN_MLP::SIGMOID_SYM, and CvANN_MLP::GAUSSIAN.
      训练 
    ann.train( TrainingData, trainClasses, weights );
     预测
    ann.predict(f, output); 
     3)具体内容请参考原始代码,这里说一下代码结构
     
     主要是5个文件。其中GOCvHelper实现的是文件输入输出查找等相关函数;GOMlpHelper实现的和MLP相关的函数;而maintest是主要过程
     //主要测试文件
#include "stdafx.h"
#include "GOCvhelper.h"
#include "GOMlpHelper.h"
//jsxyhelu.cnblogs.com 2015年3月
//基于opencv和mnist的mlp测试
void main()
{    
 
     int p[4]={5,10,15,20};
      int n[8]={20,40,60,80,100,120,140,160};
      for (int i=0;i<4;i++)
      {
          for (int j=0;j<8;j++)
          {        
            char *txt = new char[50];
            sprintf(txt,"交叉训练,特征维度%d,神网层数%d",p[i],n[j]);
             AppendText("output.txt",txt);
                  //step 1
                  annPreper();
                  //step 2
                  annTrain(p[i],n[j],"ann_data.xml","ann.xml");
                  //step 3
                  annKfoldTest("ann.xml",p[i]);
          }
      }
    cout<<"交叉训练结束!吼吼!"<<endl;
    getchar();
    return;
}
 
     4)结果。这里展现的是对于不同参数下面,Mnist数据交叉检验的结果(取平均准确率和最低准确率)。这里的不同参数,指的是特征的维度和神经网络的层数。通过结果分析,在(特征维度5,神网层数80)的情况下,训练的结果最好,那么以后再进行具体的预测的时候,就可以取这个参数。
交叉训练,特征维度5,神网层数20
平均正确率0.924876,最低正确率0.697436
交叉训练,特征维度5,神网层数40
平均正确率0.929420,最低正确率0.706840
交叉训练,特征维度5,神网层数60
平均正确率0.910902,最低正确率0.684524
交叉训练,特征维度5,神网层数80
平均正确率0.946602,最低正确率0.724638
交叉训练,特征维度5,神网层数100
平均正确率0.863204,最低正确率0.000000
交叉训练,特征维度5,神网层数120
平均正确率0.630426,最低正确率0.000000
交叉训练,特征维度5,神网层数140
平均正确率0.670202,最低正确率0.000000
交叉训练,特征维度5,神网层数160
平均正确率0.579037,最低正确率0.000000
交叉训练,特征维度10,神网层数20
平均正确率0.905349,最低正确率0.718750
交叉训练,特征维度10,神网层数40
平均正确率0.759788,最低正确率0.541284
交叉训练,特征维度10,神网层数60
平均正确率0.940838,最低正确率0.620438
交叉训练,特征维度10,神网层数80
平均正确率0.898533,最低正确率0.627737
交叉训练,特征维度10,神网层数100
平均正确率0.723310,最低正确率0.000000
交叉训练,特征维度10,神网层数120
平均正确率0.668532,最低正确率0.000000
交叉训练,特征维度10,神网层数140
平均正确率0.663412,最低正确率0.000000
交叉训练,特征维度10,神网层数160
平均正确率0.713898,最低正确率0.000000
交叉训练,特征维度15,神网层数20
平均正确率0.668120,最低正确率0.043796
交叉训练,特征维度15,神网层数40
平均正确率0.821110,最低正确率0.587302
交叉训练,特征维度15,神网层数60
平均正确率0.717837,最低正确率0.000000
交叉训练,特征维度15,神网层数80
平均正确率0.740954,最低正确率0.509434
交叉训练,特征维度15,神网层数100
平均正确率0.691856,最低正确率0.000000
交叉训练,特征维度15,神网层数120
平均正确率0.653666,最低正确率0.000000
交叉训练,特征维度15,神网层数140
平均正确率0.642795,最低正确率0.000000
交叉训练,特征维度15,神网层数160
平均正确率0.676031,最低正确率0.000000
交叉训练,特征维度20,神网层数20
平均正确率0.651077,最低正确率0.029762
交叉训练,特征维度20,神网层数40
平均正确率0.731983,最低正确率0.000000
交叉训练,特征维度20,神网层数60
平均正确率0.704698,最低正确率0.000000
交叉训练,特征维度20,神网层数80
平均正确率0.747636,最低正确率0.000000
交叉训练,特征维度20,神网层数100
平均正确率0.790314,最低正确率0.000000
交叉训练,特征维度20,神网层数120
平均正确率0.726250,最低正确率0.009434
交叉训练,特征维度20,神网层数140
平均正确率0.679839,最低正确率0.000000
交叉训练,特征维度20,神网层数160
平均正确率0.650891,最低正确率0.000000
 
 
四、小结;
     这里提供的是一种基于Opencv这种工具和Mnist这个数据集的MLP的具体实现和测试.这种框架应该说稍加修改就能够应用于不同的数据集中去。在整个训练的过程中,感到比较困难的是对于数据的预处理。由于MLP要求所有的训练和测试数据其维度都是一样的,而且Opencv在实现的过程中,采用了将所有的数据压缩到一个Mat中的方法,所以有一些麻烦。
     这里值得注意的一点是,MLP中图像的特征是需要手动生成的。也就是将将图像降维的方法是需要手动设定的。这个方法的选择很大程度上决定了最终的结果是否理想。
     而对于CNNs来说,它以更为复杂的实现方法,达到了这样一种效果:那就是不需要手动地设定特征选取的方法,计算机通过自己的训练来自己选择特征。这是非常令人激动的地方,我将在下一篇博文中展现其实现,感性关注。
 

代码:http://pan.baidu.com/s/1hqvNmg0
mnist文件:http://pan.baidu.com/s/1kTuviAz   http://pan.baidu.com/s/1qWoLuPI



目前方向:图像拼接融合、图像识别 联系方式:jsxyhelu@foxmail.com

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
NeurIPS 2019:两种视角带你了解网络可解释性的研究和进展
一直以来,深度网络在图像识别,检测,语言等领域都有强大的能力。研究者们的重点都在如何提升网络性能上,很少有人能说清楚深度神经网络为何能够得到较好的泛化能力,有的研究者习惯从原理上来说明这个问题,有的研究者则会从中间结果来解释,当然这些观点都各有千秋。在 NeurIPS 2019 上,有些学者在网络的可解释性上发表了自己的研究。
103 0
Interview:机器学习算法工程师求职九大必备技能之【数学基础、工程能力、特征工程、模型评估、优化算法、机器学习基本概念、经典机器学习模型、深度学习模型、业务与应用】(建议收藏,持续更新)
Interview:机器学习算法工程师求职九大必备技能之【数学基础、工程能力、特征工程、模型评估、优化算法、机器学习基本概念、经典机器学习模型、深度学习模型、业务与应用】(建议收藏,持续更新)
82 0
告别 AI 模型黑盒:可解释机器学习研究报告
随着金融数据规模的日益增长与 AI 技术的发展,机器学习模型在金融银行业被广泛使用。高性能的机器学习模型虽然在预测能力上表现突出,但是因为模型过于复杂的结构而引发的黑盒问题,却不利于机器学习模型的大规模使用。无法解释的黑盒模型在使用过程中暴露出来的安全风险和不公正问题,使人们对黑盒模型的使用变得越来越谨慎。为了应对黑盒模型的不可解释的问题,科学家们提出了可解释机器学习的研究。可解释机器学习分为内在可解释模型的研究和模型的事后解析方法两大方向。
2382 0
深度揭秘:机器学习对软件开发带来哪些影响?
当软件开发碰见机器学习,到底能碰撞出什么样的火花呢?
1814 0
如何评估深度学习模型效果?阿里工程师这么做
复杂的深度模型中,如果效果不好,是因为网络设计的欠缺?还是数据天然缺陷?是训练代码的bug?还是Tensorflow自身的问题?基于此,阿里工程师推出了DeepInsight深度学习质量平台,致力于解决当前模型调试和问题定位等一系列问题。
639 0
+关注
禾路
图像处理工程师,专注图像处理多年,长期奋斗在图像增强、识别一线。实战经验丰富,研究开发的连铸体拼接算法、人脸美化算法、红外线血管增强识别系统、中药识别系统、石材大板识别系统等均已投入使用。对opencv有着深入理解和解析,以jsxyhelu账号参与OpenCV项目。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
强化学习在电商环境下的若干应用与研究
立即下载
弱监督机器学习研究新进展
立即下载
回归互联网数据科学的本质客户&数据
立即下载