机器学习简介
祖师爷
艾伦图灵,人工智能之父,图灵测试;
人工智能和机器学习的区别?
- 机器学习就是实现人工智能的一种技术手段
什么是机器学习
- 官方解释:从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
白化解释:
- 模型:
- 算法模型,是一个特殊的对象。该算法模型对象中已经集成或者封装好了某种形式的算法(但是还没有求出解)。
- 模型的作用:
- 预测:可以通过算法产生一个新的未知的数据;
- 分类:可以将一个未知归类的事物将其归类到一个已有的类群中;
- 注意:算法模型对应的算法求出的解就是预测或者分类的结果。
- 样本数据:
- 模型的训练:将样本数据输入到模型中,对其进行训练(给算法进行求解操作),当模型训练好了后,则模型的算法就有唯一的解或者最优的解,有解后模型就可以实现分类或者预测的功能。
- 构成:
- 特征数据:样本数据中的自变量
- 标签/目标数据:样本数据中的因变量
- 模型的分类
- 有监督学习
- 如果模型需要的样本数据必须包含特征数据和目标数据,则该模型为有监督学习;
- 无监督学习
- 模型需要的样本数据只需要有特征数据即可,目标数据可有可无则为无监督学习。
- 有监督学习
- 模型:
样本数据(数据集)的载体:
- 通常情况下历史数据都不会存储在数据库中,而是存储在文件中(csv文件)
- 数据库存储数据存在的瓶颈:
- 性能瓶颈:数据量级大的数据很难存储和进行高效的读写;
- 数据存储格式不符合机器学习要求的数据格式。
样本数据的获取途径:
- Kaggle; 数据竞赛平台;
- UCI数据集;
- sklearn;
为什么要进行机器学习
- 解放生产力:比如只能客服;
- 解决专业问题:ET医疗(辅助医生进行相关症状的判断)
- 提供社会便利:无人超市、城市交通大数据等;
机器学习的价值体现
- 体现在生活的各个方面:医疗、航空、教务、物流等;
- 让机器学习程序替换手动的步骤,减少企业的成本,提高生产效率;