1. 什么是机器学习
机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法
机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法
2. 机器学习的定义
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。
从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
机器学习界“数据为王”, 一般来说(不是绝对),数据越多,最后机器学习生成的模型预测的效果越好
“训练”产生“模型”,“模型”指导 “预测”
3. 机器学习的范围
模式识别=机器学习 模式识别源自工业界,而机器学习来自于计算机学科
统计学习近似等于机器学习
数据挖掘=机器学习+数据库 大部分数据挖掘中的算法是机器学习的算法在数据库中的优化
计算机视觉=图像处理+机器学习
语音识别=语音处理+机器学习
自然语言处理=文本处理+机器学习
4. 机器学习的方法
1、回归算法
线性回归 处理的是数值问题,预测出的结果是数字 “最小二乘法” “数值计算” “梯度下降”以及“牛顿法”
逻辑回归 预测结果是离散的分类, 逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率
数据 “标签” “特征”
2、神经网络
也称之为人工神经网络,ANN, 分解与整合 生物科学成分
输入层,接收信号
隐藏层,对数据的分解与处理
输出层
神经元 -> 层 -> 神经网络
神经元: 处理单元事实上就是一个逻辑回归模型
3、SVM(支持向量机)
支持向量机算法从某种意义上来说是逻辑回归算法的强化, 数学成分
高斯“核” 是一种特殊的函数 最典型的特征就是可以将低维的空间映射到高维的空间。
4、聚类算法
K-Means算法
5、降维算法(无监督学习算法)
主要特征是将数据从高维降低到低维层次
主要作用是压缩数据与提升机器学习其他算法的效率
数据的可视化
PCA算法(即主成分分析算法)
6、推荐算法
推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类
一类是基于物品内容的推荐: 每个物品都需要贴标签,因此工作量较大
一类是基于用户相似度的推荐
协同过滤算法
7、其他
高斯判别,朴素贝叶斯,决策树
梯度下降法,主要运用在线型回归,逻辑回归,神经网络,推荐算法中
牛顿法,主要运用在线型回归中;
BP算法,主要运用在神经网络中;
SMO算法,主要运用在SVM中
8、分类
按照训练的数据有无标签分类
监督算法:训练数据都是包含标签
无监督算: 训练数据都是不含标签
监督学习算法:
线性回归,逻辑回归,神经网络,SVM
无监督学习算法:
聚类算法,降维算法
特殊算法:
推荐算法
5. 机器学习的应用–大数据
大数据并不等同于机器学习,同理,机器学习也不等同于大数据。
大数据中包含有分布式计算,内存数据库,多维分析等等多种技术
大数据也包含以下四种分析方法:
1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。
2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。
3.流式分析:这个主要指的是事件驱动架构。
4.查询分析:经典代表是NoSQL数据库。
分布式计算Map-Reduce
机器学习模型的数据越多,机器学习的预测的效率就越好
成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!
6. 机器学习的子类–深度学习
深度学习:传统的神经网络发展到了多隐藏层的情况
1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。
具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习
7. 机器学习的父类–人工智能(AI)
发展阶段:从早期的机器学习推理,到中期的专家系统,现在的机器学习
智慧是对生活的感悟,是对人生的积淀与思考
机器学习的思想:通过经验获取规律,指导人生与未来。没有经验就没有智慧。
深度学习属于机器学习的子类, 机器学习是人工智能子类
8. 机器学习的思考–计算机的潜意识
明意识 “吾日三省吾身”
潜意识
阐述一个观点时,用一个事实,或者一个故事,比大段的道理要好很多
9. 总结
机器学习的内核思想:统计和归纳
机器学习的真正应用不是通过概念或者思想的方式,而是通过实践。只有当把机器学习技术真正应用时,才可算是对机器学习的理解进入了一个层次。