人工智能,「抛弃」真实数据集?

简介: 人工智能,「抛弃」真实数据集?
【新智元导读】生成模型能生成高度逼真的图像,而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题:如果有足够好的生成模型,我们还需要数据集吗?


当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。

比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。

而且,使用已有数据生成数据集,也会花费数百万美元。

另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。

那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?

近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。

相关研究论文以「Generative models as a data source for multiview representation learning」为题,以会议论文的形式发表在 ICLR 2022 上。

论文链接:https://arxiv.org/abs/2106.05258


不输于真实数据


这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。

简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。

(来源:Pixabay)


研究人员表示,一旦生成模型在真实数据上进行训练,就可以生成几乎与真实数据无法区分的合成数据。

另外,生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的,它就可以「想象」出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。

基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。

而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋?


有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。

近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。

去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。

据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。

图|2022 年重要战略技术趋势(来源:Gartner)


2020 年,生成式 AI 作为一个新增技术热点,在 Gartner 发布的「Hype Cycle for Artificial Intelligence,2020」中首次被提出。

在最新的「Hype Cycle for Artificial Intelligence,2021」报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。

图|Hype Cycle for Artificial Intelligence, 2021(来源:Gartner


生成式 AI 的突破在于,它可以从现有数据(图像、文本等)中学习,并生成全新、相似的原始数据。也就是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。

那么问题来了,如果我们有足够好的生成模型,还需要真实的数据集吗?


参考资料:

https://arxiv.org/abs/2106.05258


相关文章
|
4月前
|
机器学习/深度学习 人工智能 安全
实战 | 基于YOLOv8深度学习的反光衣检测与预警系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、人工智能
实战 | 基于YOLOv8深度学习的反光衣检测与预警系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、人工智能
|
4月前
|
机器学习/深度学习 存储 人工智能
基于深度学习的乳腺癌智能检测分割与诊断系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割、人工智能(2)
基于深度学习的乳腺癌智能检测分割与诊断系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割、人工智能
|
4月前
|
机器学习/深度学习 存储 人工智能
基于深度学习的乳腺癌智能检测分割与诊断系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割、人工智能(1)
基于深度学习的乳腺癌智能检测分割与诊断系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割、人工智能
|
机器学习/深度学习 人工智能 自动驾驶
上海人工智能实验室自动驾驶团队原作解读OpenLane:大规模真实场景3D车道线数据集
上海人工智能实验室自动驾驶团队原作解读OpenLane:大规模真实场景3D车道线数据集
246 0
|
机器学习/深度学习 人工智能 监控
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
144 0
|
人工智能 算法 测试技术
人工智能:工业检测方向开源数据集资源汇总
人工智能:工业检测方向开源数据集资源汇总
152 0
人工智能:工业检测方向开源数据集资源汇总
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类
朴素贝叶斯算法 输入:样本集合D={(x_1,y_1),(x_2,y_2)~(x_m,y_m); 待预测样本x; 样本标记的所有可能取值{c_1,c_2,c_3~c_k}; 样本输入变量X的每个属性变量X^i的所有可能取值{a_i1,a_i2,~,a_iAi}; 输出:待预测样本x所属的类别
530 1
【人工智能】机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类
|
机器学习/深度学习 人工智能 文字识别
【人工智能】机器学习及与智能数据处理之降维算法PCA及其应用手写字体识别以及【自定义数据集】
利用PCA算法实现手写字体识别,要求: 1、实现手写数字数据集的降维; 2、比较两个模型(64维和10维)的准确率; 3、对两个模型分别进行10次10折交叉验证,绘制评分对比曲线。
446 1
【人工智能】机器学习及与智能数据处理之降维算法PCA及其应用手写字体识别以及【自定义数据集】
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习之使用Python生成ID3决策树及使用sklearn的决策树算法对葡萄酒数据集进行分类
决策树的思想: 给定一个集合,其中的每个样本由若干属性表示,决策树通过贪心的策略不断挑选最优的属性。 常见的决策树算法有ID3,C4.5,CART算法等。
552 1
【人工智能】机器学习之使用Python生成ID3决策树及使用sklearn的决策树算法对葡萄酒数据集进行分类
|
机器学习/深度学习 人工智能 大数据
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
208 0

热门文章

最新文章

下一篇
无影云桌面