一、人工智能历史
虽然 AI 出现在大众视野中的时间并不长,但相关理论在上个世纪就已经有了雏形。
1940年,控制论中阐述探索调节系统的跨学科研究,它用于研究控制系统的结构、局限和发展。这是关于人、动物和机器如何相互控制和通信的科学研究。
1943年,美国神经科学家麦卡洛克、皮茨提出神经网络,并制作了一个模型叫 M-P 模型。
1950年,随着计算机科学、神经科学、数学的发展,图灵发表了一个跨时代的论文,提出了一个很有哲理的The Imitation Game也称为图灵测试。大意是指:人与机器聊天的过程中,如果无法发现对方是机器,则称为通过图灵测试。
1956年,马文明.斯基、约翰.麦卡锡、克劳德.香农(信息论奠基者)举行了一个会议:达特茅斯会议。其主要议题就是人们到底能否像人一样思考,并且出现了 AI 这个词。
1966年,MIT 的聊天机器人Eliza, 之前的系统都是基于 PatternMatching 模式匹配,基于规则的。
1997年,IBM 深蓝战胜了象棋冠军。多伦多大学的辛顿将反向传播算法BP引入到人工智能当中;纽约大学的杨立昆,著名贡献就是卷积神经网络CNN;蒙特利尔大学的本吉奥(神经概率语言模型、生成对抗性网络)。
2010年,机器学习里面的一个领域 Artificial Neural Networks 人工人神经网络开始闪光。二、机器学习
机器学习的常见任务就是通过训练算法,自动发现数据背后的规律,不断改进模型,然后做出预测。机器学习中的算法众多,其中最经典的算法当属:梯度下降算法。它可以帮我们去处理分类、回归的问题。通过y=wx+b这种式子线性拟合,让结果趋近于正确值。
2.1 预测函数
假设我们有一组因果关系的样本点,分别代表一组有因果关系的变量。比如是房子的价格和面积,人的身高和步幅等等。常识告诉我们,他们的分布是正比例的。首先,梯度下降算法会确定一个小目标–预测函数,也就是一条过原点的直线 y = wx。我们的任务就是设计一个算法,让这个机器可以拟合这些数据,帮助我们算出直线的参数w。
一个简单的办法就是随机选一条过原点的直线,然后计算所有样本点和它的偏离程度。再根据误差大小来调整直线斜率 w
通过调整参数,让损失函数变的越小,说明预测的越精准。在这个例子中 y = wx 就是所谓的预测函数。
2.2 代价函数
找误差的这个过程就是计算代价函数。通过量化数据的偏离程度,也就是误差,最常见的就是均方误差(误差平方和的平均值)。比如误差值是 e ,因为找误差的系数是平方和的式子,所以 e 的函数图像如下图右侧所示。我们会发现当e的函数在最低点的时候,左侧图中的误差就会越小,也就是拟合的越精准。
2.3 梯度计算
机器学习的目标是拟合出最接近训练数据分布的直线,也就是找到使得误差代价最小的参数,对应在代价函数上就是最低点。这个寻找最低点的过程就称为梯度下降。