2.转载:【AI系统】AI 基本理论奠定

简介: AI的核心理论——神经网络,在经历多个发展阶段后逐渐成熟。从1943年McCulloch和Pitts提出神经网络计算模型,到1957年Rosenblatt发明感知机,再到1986年LeCun提出卷积神经网络,以及2006年Hinton等人推动深度学习兴起,直至2012年AlexNet在ImageNet竞赛中的突破,AI技术不断进步。近年来,大模型如BERT、GPT-3等的出现,开启了AI的新篇章,展现出强大的语言理解和生成能力,同时也带来了数据、计算资源及伦理等方面的挑战。

AI 基本理论奠定

虽然 AI 在今年取得了举世瞩目的进展与突破,但是其当前基于的核心理论神经网络等,在这波浪潮开始前已经基本奠定,并经历了多次的起起伏伏。神经网络作为 AI 的前身,经历了以下的发展阶段:

萌芽兴奋期(约 1950s)

1943 年,神经科学家和控制论专家 Warren McCulloch 和逻辑学家 Walter Pitts 基于数学和阈值逻辑算法创造了一种神经网络计算模型。并发表文章 "A Logical Calculus of the ideas Imminent in Nervous Activity"[[3]]。

人工智能概念的提出带来了一系列研究成果,如机器定理证明、跳棋程序等,掀起了人工智能发展的第一个高潮。测试机器是否能表现出与人无法区分的智能"图灵测试"就是在 1950 年提出的。

1957 年,Frank Rosenblat 发明感知机(Perceptron)[[4]]。奠定了之后 AI 的基本结构,其计算以矩阵乘加运算为主,进而影响了后续人工智能芯片和系统的基本算子类型,例如:英伟达的新款 GPU 就有为矩阵计算设计的专用张量核(Tensor Core)。

1960 年,Bernard Widrow[[5]] 和 Hoff 发明了感知器 Adaline/Madaline,首次尝试把线性层叠加整合为多层感知器网络。感知器本质上是一种线性模型,可以对输入的训练集数据进行二分类,且能够在训练集中自动更新权值。感知器的提出吸引了大量科学家对人工神经网络研究的兴趣,对神经网络的发展具有里程碑式的意义。为之后的多层 AI 的网络结构奠定了基础,进而后期不断衍生更深层的模型,产生大模型和模型并行等系统问题。

1969 年,Marvin Minsky 和 Seymour Papert 共同编写了一本书籍 “Perceptrons: an introduction to computational geometry”[[6]],在书中他们证明了单层感知器无法解决线性不可分问题(例如:异或问题)。发现了当时的神经网络的两个重大缺陷:

  1. 基本感知机无法处理异或回路。
  2. 当时计算机的计算能力不足以用来处理复杂神经网络。

因此对于神经网络的研究就此停滞不前,这也为后来 AI 的两大驱动力,提升硬件算力和模型通过更多的层和非线性计算(激活函数和最大池化等)增加非线性能力的演进埋下了伏笔。

1974 年,Paul Werbos 在博士论文 “Beyond regression : new tools for prediction and analysis in the behavioral sciences”[[7]] 中提出了用误差反向传播来训练人工神经网络,使得训练多层神经网络成为可能,有效解决了异或回路问题。这个工作奠定了之后 AI 的训练方式,AI 训练系统中最为重要的执行步骤就是在不断的进行反向传播训练。同时 AI 的编程语言和框架为了支持反向传播训练,默认都提供自动微分(Automatic Differentiation)的功能。

蓬勃发展期(约 1980s)

1986 年,AI(Deep Learning)一词由 Rina Dechter 于 1986 年 AAAI 论文“LEARNING WHILE SEARCHING IN CONSTRAINT-SATISFACTION-PROBLEMS”[[8]] 引入机器学习社区。目前常常所说的人工智能系统主要以 AI 系统为代表性系统。

1989 年,Yann LeCun 在论文“Backpropagation Applied to Handwritten Zip Code Recognition”[[9]] 提出了一种用反向传导进行更新的卷积神经网络,称为 LeNet 。启发了后续卷积神经网络的研究与发展。卷积神经网络为 AI 系统的重要负载,大多数的 AI 系统都需要在卷积神经网络上验证性能,在未来会看到很多 AI 系统的基准测试中也会引入大量的卷积神经网络。

20 世纪 90 年代中期统计学习登场,支持向量机 SVM 开始成为主流,进入第二个低谷。

2006 年,Geoff Hinton、Ruslan Salakhutdinov、Osindero 的论文 “Reducing the Dimensionality of Data with Neural Networks”[[10]] 表明,多层前馈神经网络可以一次有效地预训练一层,依次将每一层视为无监督受限的玻尔兹曼(Boltzmann)机,然后使用监督反向传播对其进行微调,其论文主要研究深度信念网络(Deep Belief Nets)的学习。

2009 年,李飞飞教授团队在佛罗里达州举行的 2009 年计算机视觉和模式识别 (CVPR) 会议上首次以海报的形式展示了他们的 ImageNet[[11]] 数据库,之后大量计算机视觉领域的经典模型在此数据库上进行验证,评测并演进。李飞飞于 2006 年产生想法并开始研究 ImageNet[[11]] 。

2007 年,李飞飞与 WordNet 的创始人之一普林斯顿大学教授克里斯蒂安·费尔鲍姆会面,之后从 WordNet 的单词数据库开始构建 ImageNet,并使用了它的许多功能。作为普林斯顿大学的助理教授,李博士组建了一个研究团队,致力于 ImageNet 课程,其通过众包平台 Amazon Mechanical Turk 的工作人员来进行标记。

突破驱动繁荣期(约 2010s)

2011 年 8 月,微软研究院 Frank Seide, Gang Li, Dong Yu 在 Interspeech 的论文 " Conversational speech transcription using context-dependent deep neural networks."[[12]] 首次介绍了如何通过神经网络模型在会话语音转录(Conversational Speech Transcription)上实现突破性进展。文章介绍了模型的的设计和实验结果,“其在单通道非特定人识别(Single-pass Speaker-independent Recognition)基准测试上将相对错误率由 27.4% 降低到 18.5% ,相对错误率降低 33%,在其他 4 类任务中相对错误率降低 22–28%。

此神经网络的训练任务是通过分布式系统(其设计了适合当前作业的张量切片与放置以及通信协调策略以加速训练)部署在多台配置有英伟达 Tesla GPGPU 服务器,通过几百小时的分布式训练才得以完成。论文在最后致谢中提到 “Our special thanks go to Ajith Jayamohan and Igor Kouzminykh of the MSR Extreme Computing Group for access to a Tesla server farm, without which this work would not have been possible.”,由此看到在 AI 领域算法团队与系统团队协作已经由来已久,算法与系统的协同设计将以往不可能完成的计算任务变为了可能,上层应用负载需求驱动系统发展与演化,系统支撑上层应用负载取得新的突破。

2012 年 1 月,谷歌的神经网络从 1000 万张 YouTube 视频的静止画面中学会了识别猫。谷歌的科学家通过连接 16,000 个计算机处理器创建了最大的机器学习神经网络之一,他们在互联网上将这些处理器松散开来自行学习,正是大规模系统互联更大的算力支撑了当时相比以往更大的数据和模型的训练。此工作 “Building high-level features using large scale unsupervised learning” [[13]] 发表在 ICML '12 会议上。

2012 年 9 月,Alex Krizhevsky,Ilya Sutskever 和 Geoffrey Hinton,团队通过设计 AlexNet[[14]] 赢得 ImageNet 竞赛,神经网络开始再次流行。首次采用 ReLU 激活函数,扩展了 LeNet5 结构,添加 Dropout 层减小过拟合,LRN 层增强泛化能力/减小过拟合。这些新的模型结构和训练方法影响着后续的模型设计和系统优化,例如:激活函数和卷积层的内核融合计算等。其花费 5 到 6 天,采用 2 块英伟达 GTX 580 3GB GPUs 对计算进行加速,进而形成 AI 系统以 GPU 等加速器为主要计算单元的架构。

截至到 2012 年这个时间点,基础架构的线索中,以英伟达(NVIDIA)为代表的芯片厂商已经连续发布了 Tesla,Fermi,Kepler) 架构系列商用 GPU 和多款消费级 GPU,这些 GPU 已经开始被研究工作引用加速 AI 算法与模型的研究,被业界公司用于人工智能产品。但同时从 AlexNet 工作中看到,作者还基于 CUDA API 进行编程实现了cuda-convnet,AI 系统与工具伴随着 AI 算法与模型的突破与需求呼之欲出,在后面的章节中将会总结和展望 AI 系统本身的脉络,现状与发展。

在之后的时间里,以 ImageNet,等公开的各领域(例如,计算机视觉,自然语言处理)数据集为代表的各个应用领域的公开数据集或基准测试,驱动着以卷积神经网络 CNN,循环神经网络 RNN,Transformer,图神经网络 GNN 为代表的 AI 模型网络结构的发展和创新。

基准测试的好处是研究者从繁杂的应用问题建模和数据预处理工作跳出,能够在给定数据集上尽可能排除其他因素干扰,更为公平对比已有工作,并研发创新模型结构。在当前的社区工作中可以观察到,AI 模型网络结构越来越深,新结构层出不穷,同时不断驱动 AI 系统的演化。模型作为上层应用负载,是驱动系统演化的驱动力之一。关注模型结构和 AI 的应用场景变化,能够让系统研究者和工程师把握系统发展的趋势,并设计出符合潮流和应对未来变化的系统。

大模型带来新机遇(约 2020s)

随着神经网络模型结构向更深的网络结构,更多的参数演进,出现了各种基于预训练模型进行参数微调的特大参数模型。2021 年 8 月份,著名人工智能教授李飞飞和 100 多位学者联名发表一份 200 多页的研究报告《On the Opportunities and Risk of Foundation Models》,深度地综述了当前大规模预训练模型面临的机遇和挑战,文中将这种基于神经网络和自监督学习技术,在大规模、广泛来源数据集上训练的 AI 模型称为大模型。

大模型包括多种预训练模型,如 BERT、GPT-3、CLIP、DALL·E 等。目前基础模型所涉及的技术子领域包括:模型的构建、训练、微调、评价、加速、数据、安全、稳健性、对齐(Alignment)、模型理论、可解释等,大模型仍处于快速发展的阶段。

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~
转载自:https://zhuanlan.zhihu.com/p/914331589

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
机器学习/深度学习 人工智能 文字识别
探索AI技术对古彝文保护与研究应用
探索AI技术对古彝文保护与研究应用
227 2
|
机器学习/深度学习 人工智能 自然语言处理
人工智能AI如何工作及使用
人工智能AI如何工作及使用
|
18天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 基本理论奠定
AI的发展历程经历了萌芽兴奋期、蓬勃发展期和突破驱动繁荣期。从1950年代Warren McCulloch和Walter Pitts提出神经网络计算模型,到2012年AlexNet赢得ImageNet竞赛,再到2020年代的大模型时代,AI技术不断突破,模型结构日益复杂,参数量激增。这一过程中,硬件算力的提升和算法创新相互促进,共同推动了AI领域的繁荣发展。
41 2
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
探索AI未来:从理论到实践
【10月更文挑战第9天】探索AI未来:从理论到实践
36 2
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
AI技术在现代生活中的应用:从理论到实践
AI技术在现代生活中的应用:从理论到实践
153 2
|
2月前
|
机器学习/深度学习 人工智能 开发框架
【AI系统】AI 学习方法与算法现状
在人工智能的历史长河中,我们见证了从规则驱动系统到现代机器学习模型的转变。AI的学习方法基于深度神经网络,通过前向传播、反向传播和梯度更新不断优化权重,实现从训练到推理的过程。当前,AI算法如CNN、RNN、GNN和GAN等在各自领域取得突破,推动技术进步的同时也带来了更大的挑战,要求算法工程师与系统设计师紧密合作,共同拓展AI技术的边界。
106 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI技术:从基础原理到实际应用的全面剖析
本文旨在为读者提供关于人工智能(AI)技术的全面了解。从探讨AI的基本概念和关键技术入手,逐步深入到AI在不同领域的应用实例,包括医疗、金融和自动驾驶等。同时,文章也详细讨论了当前AI技术面临的伦理问题和社会影响,以及可能的解决方案。最后,本文还展望了AI技术未来的发展趋势,帮助读者更好地理解这一前沿科技的现状与未来。
66 5
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
探索自动化测试的前沿:AI与机器学习的融合
【7月更文挑战第31天】在软件测试领域,传统的手动测试和脚本化自动化测试方法正逐渐让位于集成了人工智能(AI)和机器学习(ML)技术的先进解决方案。本文将深入探讨如何通过AI和ML技术提高自动化测试的效率、准确性和智能化水平,同时分析这些技术在实际测试中的应用案例及其对测试工程师角色的影响。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
173 9
|
2月前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI的历史、现状与理论基础
人工智能(AI)作为一门跨学科的研究领域,其目标是模拟、延伸和扩展人的智能。本文旨在概述AI的历史发展、当前趋势以及理论基础,为读者提供一个系统的视角。
97 0