【AI版摩尔定律】10张图盘点计算机视觉、语音和文本理解里程碑

简介: 现在的AI发展到什么水平了?我们总说“超越人类水平”,有没有一个量化的标准,来让我们理性的认识AI发展水平,刺破火热AI的迷雾?电子前沿基金会 EFF正在致力于这一方向研究。从近期微软宣布语音识别错误率降至5.1%,与人类水平相当谈起,这篇文章将介绍目前AI领域最为知名的发展水平衡量标准,涉及计算机视觉、文本理解、语音识别、翻译、游戏等多个方向。


image


现在的AI发展到什么水平了?我们总说“超越人类水平”,有没有一个量化的标准,来让我们理性的认识AI发展水平,刺破火热AI的迷雾?电子前沿基金会 EFF正在致力于这一方向研究。从近期微软宣布语音识别错误率降至5.1%,与人类水平相当谈起,这篇文章将介绍目前AI领域最为知名的发展水平衡量标准,涉及计算机视觉、文本理解、语音识别、翻译、游戏等多个方向。包括ImageNet、CIFAR-10、COCO等多个近年来受到广泛关注的数据集以及取得最好成绩的模型的介绍。

微软上周宣布,在语音转文字上,他们的软件取得了新的突破。在一个标准的电话语音通话数据库中,微软的系统的识别错误率为:每20个单词只有1个错误,这与人类的水平相当。

在一系列被人们认为是能证明人工智能的进步正在逐步加速,将大大促进经济增长的证据中,这一结果是最新的一例。

一些软件已经被证明在识别图像中的汽车或猫等对象上能比人做得更好,谷歌的AlphaGo软件已经战胜了多个围棋冠军 ,此前这被认为是需要十年或以上的时间才能实现的。各大公司都急切地希望基于这些进步获得发展,在各家企业的财报电话会议上,AI 被提及的次数更是呈现指数级的增长。


image


现在,一些AI观察者正在尝试制作更加精确的图,以展示这一技术是如何快速发展的,以及进步的速度如何。通过在不同的领域衡量AI的进步,他们希望能刺破AI泡沫和迷雾。这些项目致力于给予研究者和政策制定者一个更加清晰的视角,让他们能以最快的速度发现领域内哪些地方在快速进步,以及我们应该如何做出反应。

图像识别软件在2016年的标准ImageNet测试中超越了人类。非营利实验室SRI国际研究员Ray Perrault说:“需要这么做的一部分原因,是因为在关于AI 会走向何方这一话题上,人们有许多疯狂的想法”。他是一个名为“AI指数”的项目的领导者之一,其目的是在年底前发布一份关于该领域进展情况的详细情况。该项目得到了2015年在斯坦福大学建立的“人工智能百年研究”的支持,以检验人工智能对社会的影响。

关于 AI 取得进步的声明几乎是无处不在的,即使是在快餐和牙刷的营销人员口中。另外,对于那些拥有最坚实的研究团队发布的成果,我们也很难去评估。

去年10月,微软就首先公布在语音识别上达到了人类的标准,但是,IBM和众筹公司 Appen紧接着就公开宣称,人类能做到的准确率要比微软所声称的高得多。接下来,微软不得不其错误率再降低12%,以达到“人类水平”(human parity)。

注:微软最开始宣布语音识别错误率为6.3%,一个月后宣布达到5.9%,最近一次宣布错误率已经降到了5.1%。

AI指数:记录AI发展里程碑的10张趋势图

EFF是一家致力于保护公民自由免受数字威胁的电子前沿基金会,他们已经开始自己的努力来衡量和理解AI的进展。这家非盈利组织正在梳理微软等等机构的论文,以组建一个开源的、在线的数据库,以衡量的AI进度和表现。 EFF的首席计算机科学家Peter Eckersley表示:“我们想知道AI真正发展到什么地步了,哪些是紧急的任务,哪些是长期的目标,而不是只知道那些让人们过度兴奋的投机版本的AI。”

EFF的数据库包含了从2012年起图像识别快速进展的图表,还有一个图,是关于让软件理解儿童读物的测试,这能让我们了解人类和机器在这一任务上的差距。 “ AI指数”项目正在努力绘制AI子领域趋势图,将最受研究员关注的趋势表现出来。

视觉

1. ImageNet

视觉我们将介绍最知名的10个标志性事件,首先就是大名鼎鼎的ImageNet,大家都知道,ImageNet在2017年是最后一届了。


image
image

EFF的统计表中列出了从2010年到2017年,ImageNet图像识别竞赛中取得突破的情况。2014年的VGG和2015年的MSRA是两大比较有代表性的突破,其中2015年MSRA的突破,正式将机器对图片的识别错误率降到了人类水平。

2. CIFAR-10 和 CIFAR-100

CIFAR-10 数据库包含了6万张32X32的彩色图像,有10个类型,每个类型有6000张图片。共有5万张训练图像和1万张测试图像。CIFAR-100和 CIFAR-10类似,不同点在于,其类型有100个,每个包含600张图片。

image
image


CIFAR-10 中,取得达到人类水平的突破也是发生在2015年之后。下面是具体的算法和准确率:


image
image
image


此外,EFF还列出了MNIST 手写识别、MSRC-21、STL-10和SVHN等视觉和图像数据集上几年来的表现,包括算法和论文,详情点击:https://www.eff.org/files/AI-progress-metrics.html#Vision

值得一提的是,视觉问答数据集COCO上的成绩:


image


游戏

游戏部分分为:抽象策略游戏和实时视频游戏(各种Atari游戏)。较为有代表性的有:

  1. 抽象策略游戏(计算机象棋程序)


image


语音识别


image


该数据集上近三年来不断刷新新纪录的算法:


image

语言建模与理解

image

翻译


image
image


对话:聊天机器人与智能体

image

阅读理解

image

上文提到的视觉、游戏和语音识别等。新智元了解到,EFF目前对AI发展的能力衡量分为以下11个部分:

  1. 玩游戏
  2. 视觉与图像建模
  3. 文本语言
  4. 对话语言
  5. 音乐信息复合
  6. 科学和技术能力
  7. 学习:正则化、迁移学习和单次学习
  8. 安全
  9. 透明性和可解释性
  10. 公正与去偏见
  11. 隐私问题

更多内容,可点击 https://www.eff.org/files/AI-progress-metrics.html#Vision

趋势图的价值:创造AI版的“摩尔定律”

AI 指数还将尝试监测和衡量人工智能在现实世界中的工作。 Perrault说,例如,将使用该技术的工程师的数量和以AI为中心的公司的投资在图表中进行体现可能是有用的。

他的目标是“了解这项研究对商业化产品有多大影响”,他说。尽管他承认公司可能不愿意发布数据。人工智能指数项目也在跟踪媒体上报道的数量和情绪以及公众对AI的关注。

Perrault说,该项目应该会赢得广泛的观众,因为研究人员和资助机构非常迫切地想看到AI的哪些领域有最大的发展势头,或哪些领域需要支持和新的想法。他表示,银行和咨询公司已经呼吁,需要更好地处理人工智能的真实情况。科技行业与摩尔定律的数十年的“蜜月期”, 证明了AI进展的路线图将能在硅谷找到观众。

至于这一衡量方式会对政府官员和监管机构应对智能软件在隐私等方面的影响能有多大的帮助,现在还不清楚,华盛顿大学法律系教授 Ryan Calo表示:“我不知道它会有多么有用。”他最近提出了AI政策问题的详细路线图。他认为,决策者需要对底层技术进行深度的了解,而且需要强有力的价值观,而不是对细微的进步进行监控。

EFF的 Eckersley 认为,AI 追踪项目将随着时间的推移变得更加有用。例如,有关失业问题的辩论可能会通过关于软件程序如何快速推动某些工作人员的核心任务进行自动化的数据而被提及。Eckersley说,看这个领域的进展情况已经有助于说服他自己,让AI系统更加可信赖是多么的重要。他说:“我们收集的数据表明AI系统的安全性是一个相关甚至紧迫的研究领域。”

学术界和谷歌等公司的研究人员最近已经调查了如何欺骗人工智能软件,并防止它的错误行为。随着各家公司都在急切地用软件来控制诸如汽车等更为普遍的技术上,如何使其可靠和安全可衡量的进步可能是最重要的。

原文发布时间为:2017-08-31
编辑:胡祥杰
本文来自云栖社区合作伙伴“新智元”,了解相关信息可以关注“新智元”微信公众号
原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
4天前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
1天前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在文本情感分析中的应用
【8月更文挑战第40天】本文将深入探讨人工智能在文本情感分析领域的强大应用。我们将从基础概念出发,逐步深入到技术实现,最终通过一个Python代码示例具体展示如何使用自然语言处理库进行情感分析。文章旨在为读者提供一个清晰的指南,了解并实践如何利用AI技术解读和评估文本中的情感色彩。
|
4天前
|
机器学习/深度学习 人工智能 PyTorch
AI计算机视觉笔记三十二:LPRNet车牌识别
LPRNet是一种基于Pytorch的高性能、轻量级车牌识别框架,适用于中国及其他国家的车牌识别。该网络无需对字符进行预分割,采用端到端的轻量化设计,结合了squeezenet和inception的思想。其创新点在于去除了RNN,仅使用CNN与CTC Loss,并通过特定的卷积模块提取上下文信息。环境配置包括使用CPU开发板和Autodl训练环境。训练和测试过程需搭建虚拟环境并安装相关依赖,执行训练和测试脚本时可能遇到若干错误,需相应调整代码以确保正确运行。使用官方模型可获得较高的识别准确率,自行训练时建议增加训练轮数以提升效果。
|
4天前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
3天前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记二十二:基于 LeNet5 的手写数字识别及训练
本文介绍了使用PyTorch复现LeNet5模型并检测手写数字的过程。通过搭建PyTorch环境、安装相关库和下载MNIST数据集,实现了模型训练与测试。训练过程涉及创建虚拟环境、安装PyTorch及依赖库、准备数据集,并编写训练代码。最终模型在测试集上的准确率达到0.986,满足预期要求。此项目为后续在RK3568平台上部署模型奠定了基础。
|
3天前
|
人工智能 并行计算 测试技术
AI计算机视觉笔记三十一:基于UNetMultiLane的多车道线等识别
该项目基于开源数据集 VIL100 实现了 UNetMultiLane,用于多车道线及车道线类型的识别。数据集中标注了六个车道的车道线及其类型。项目详细记录了从环境搭建到模型训练与测试的全过程,并提供了在 CPU 上进行训练和 ONNX 转换的代码示例。训练过程约需 4 小时完成 50 个 epoch。此外,还实现了视频检测功能,可在视频中实时识别车道线及其类型。
|
4天前
|
传感器 人工智能 算法
AI计算机视觉笔记二十七:YOLOV8实现目标追踪
本文介绍了使用YOLOv8实现人员检测与追踪的方法。通过为每个人员分配唯一ID,实现持续追踪,并可统计人数,适用于小区或办公楼出入管理。首先解释了目标检测与追踪的区别,接着详细描述了使用匈牙利算法和卡尔曼滤波实现目标关联的过程。文章提供了基于IOU实现追踪的具体步骤,包括环境搭建、模型加载及追踪逻辑实现。通过示例代码展示了如何使用YOLOv8进行实时视频处理,并实现人员追踪功能。测试结果显示,该方法在实际场景中具有较好的应用潜力。
|
4天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。

热门文章

最新文章