人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等
一、人工智能历史
虽然 AI 出现在大众视野中的时间并不长,但相关理论在上个世纪就已经有了雏形。
1940年,控制论中阐述探索调节系统的跨学科研究,它用于研究控制系统的结构、局限和发展。这是关于人、动物和机器如何相互控制和通信的科学研究。
1943年,美国神经科学家麦卡洛克、皮茨提出神经网络,并制作了一个模型叫 M-P 模型。
1950年,随着计算机科学、神经科学、数学的发展,图灵发表了一个跨时代的论文,提出了一个很有哲理的The Imitation Game也称为图灵测试。大意是指:人与机器聊天的过程中,如果无法发现对方是机器,则称为通过图灵测试。
1956年,马文明.斯基、约翰.麦卡锡、克劳德.香农(信息论奠基者)举行了一个会议:达特茅斯会议。其主要议题就是人们到底能否像人一样思考,并且出现了 AI 这个词。
1966年,MIT 的聊天机器人Eliza, 之前的系统都是基于 PatternMatching 模式匹配,基于规则的。
1997年,IBM 深蓝战胜了象棋冠军。多伦多大学的辛顿将反向传播算法BP引入到人工智能当中;纽约大学的杨立昆,著名贡献就是卷积神经网络CNN;蒙特利尔大学的本吉奥(神经概率语言模型、生成对抗性网络)。
2010年,机器学习里面的一个领域 Artificial Neural Networks 人工人神经网络开始闪光。
二、机器学习
机器学习的常见任务就是通过训练算法,自动发现数据背后的规律,不断改进模型,然后做出预测。机器学习中的算法众多,其中最经典的算法当属:梯度下降算法。它可以帮我们去处理分类、回归的问题。通过y=wx+b这种式子线性拟合,让结果趋近于正确值。
2.1 预测函数
假设我们有一组因果关系的样本点,分别代表一组有因果关系的变量。比如是房子的价格和面积,人的身高和步幅等等。常识告诉我们,他们的分布是正比例的。首先,梯度下降算法会确定一个小目标–预测函数,也就是一条过原点的直线 y = wx。我们的任务就是设计一个算法,让这个机器可以拟合这些数据,帮助我们算出直线的参数w。
一个简单的办法就是随机选一条过原点的直线,然后计算所有样本点和它的偏离程度。再根据误差大小来调整直线斜率 w
通过调整参数,让损失函数变的越小,说明预测的越精准。在这个例子中 y = wx 就是所谓的预测函数。
2.2 代价函数
找误差的这个过程就是计算代价函数。通过量化数据的偏离程度,也就是误差,最常见的就是均方误差(误差平方和的平均值)。比如误差值是 e ,因为找误差的系数是平方和的式子,所以 e 的函数图像如下图右侧所示。我们会发现当e的函数在最低点的时候,左侧图中的误差就会越小,也就是拟合的越精准。
2.3 梯度计算
机器学习的目标是拟合出最接近训练数据分布的直线,也就是找到使得误差代价最小的参数,对应在代价函数上就是最低点。这个寻找最低点的过程就称为梯度下降。
利用梯度下降算法训练这个参数,非常类似于人的学习和认知过程。皮亚杰的认知发展理论,所谓的同化和顺应,吃一堑长一智,这就和机器学习的过程是一模一样的。
三、深度学习
关于 AI 算法是否要使用类人脑的运作方式去实现,早期是存在较大争议的。并且在深度学习出来之前,大部分的计算机科学家都投身到了,类似于模式匹配的研究方向。现在看来那种方法,当然是很难让机器变的和人一样智能。但我们不能以现在的眼光来看待当时的人们,当时关于数据和算力都很匮乏,所以自然就有一套理论反驳采用类人脑的思路去实现。
计算机的运行原理怎么可能和人脑一样呢?我们还是要采用传统算法去解决问题。这也间接导致了 AI 在当时一直停滞不前的局面。对于当年研究这个方向的博士来说,现实是残酷的。所以才有那句话:人的努力固然重要,但也要看方向。
1943 年神经科学家探究了人脑的运行原理,人的大脑是超过 100 亿个神经元通过网状链接,来判断和传递信息。
每一个神经元都是一个多输入,单输出。可以通过多个神经元得到信号,得到信号进行综合处理,如果有必要则会向下游输出信号。这个输出只有两个信号,要么就是0要么就是1,和计算机非常类似。所以他们就提出一个模型叫M-P模型。
人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。深度学习是一种以人工神经网络为架构,对资料进行表征学习的算法。