【论文原文】:Small Data’s Big AI Potential
【作者信息】:Husanjot Chahal,Helen Toner,Ilya Rahkovsky
Husanjot Chahal是CSET的研究分析师,Helen Toner是战略总监,Ilya Rahkovsky是数据科学家。
获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/
博主关键词: 小数据,应用分析
推荐相关论文:
- 无
概要:
本问题简介提供了“小数据”人工智能方法的介绍和概述,即帮助解决很少或没有标记数据可用的情况的方法,并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解,数据是一种重要的战略资源,尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在,并掩盖了其潜力,这些方法不需要大量的数据集进行训练。
我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法,我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集,介绍了一些探索性发现,评估了小数据方法在科学研究中的当前和预计进展,概述了哪个国家处于领先地位,以及这项研究的主要资金来源。根据我们的研究结果,我们总结出以下四个关键要点:
a)人工智能并不是大数据的同义词,在不同的小数据设置中,有几种替代方法可以使用。
b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快),这使得这种方法在未来可能比今天更好地工作,并得到更广泛的应用。
c)美国和中国在小数据方法上竞争激烈,美国在强化学习和贝叶斯方法这两个最大的类别上领先,而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。
d)暂时来说,迁移学习可能是获得更多美国政府资助的一个有希望的目标,因为相对于整个人工智能领域的投资模式,它在小数据方法上的投资份额较小。
简介:
传统观点认为,尖端人工智能依赖于大量数据。根据这一人工智能概念,数据是一种重要的战略资源,一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但 如果政策制定者认为这是所有人工智能系统的永恒真理,他们就会误入歧途 。过分强调数据忽略了几种人工智能方法的存在,并低估了其潜力,这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中,我们将这些方法称为“小数据”方法。
我们所说的“小数据”不是一个明确的类别,因此没有一个单一的、正式的、一致的定义。 学术文章讨论与考虑的应用领域相关的小数据,通常将其与样本的大小联系起来,例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据,如其可用性和人类的理解,或作为数据的数量和格式,使其可访问,信息丰富,可操作,特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和不同类型的方法,这取决于手头的问题
这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者,因为他们可以接触到现实世界互动的性质,以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为,中国拥有独特的优势,因为它可以获得更多的数据,理由是中国人口众多,数据收集能力强,缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术,这些技术使这种情况不像通常假设的那样真实。
最后,有时有人认为,政府机构只有能够将大量数据数字化、清理和标记,才能从人工智能革命中受益。虽然这一建议是有道理的,但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点,即 人工智能的未来可能不仅与大数据有关,而且在没有对大数据基础设施进行大规模投资的情况下,政府领域(及其他领域)的人工智能创新仍然可以发生。
在接下来的文章中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法,哪些类别构成了这些方法的一部分,以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集,特别是我们合并的学术文献语料库,涵盖了世界上90%以上的学术产出,以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展,并确定哪个国家处于领先地位,以及所研究的研究的主要资金来源。基于我们的研究结果,我们总结了四个关键要点。
“小数据”方法归类:
本文的研究大致分为五类“小数据”方法:a)迁移学习,b)数据标记,c)人工数据生成,d)贝叶斯方法,e)强化学习。我们将在下面更详细地描述这些分类,尽管它们是不完善的。人工智能和机器学习研究融合了广泛的不同方法、途径和范式,用于解决许多不同类型的问题,因此难以简单归类。我们在下面描述这些类别的目的是让读者了解一些粗略的概念方法,这些方法可以在没有大型预标记数据集的情况下训练人工智能系统。我们使用的分类在实践中并不是完全可分离的,它们既不是相互排斥的,也不是全面详尽的。
迁移学习 的工作原理是,首先学习如何在数据丰富的环境中执行任务,然后将在那里学到的知识“转移”到数据少得多的任务中。这在只有少量标记数据可用于感兴趣的问题,但有大量标记数据可用于相关问题的设置中非常有用。
例如,某人开发了一个识别稀有鸟类物种的应用程序,可能只有每只鸟的少量照片,每张照片都标有其物种。要使用迁移学习,他们可以首先使用更大、更通用的图像数据库(如ImageNet)训练一个基本的图像分类器,ImageNet有数百万张根据数千个类别标记的图像。一旦分类器能够区分狗和猫,花和水果,麻雀和燕子,他们就可以给它提供更小的稀有鸟类数据集。然后,该模型可以“转移”它已经知道的如何将图像分类的知识,利用这些知识从更少的数据中学习新任务(识别稀有鸟类物种)。
数据标注 是一种从有限的有标记数据开始,但包含大量无标记数据的方法。这类方法使用一系列方法来理解可用的未标记数据,例如自动生成标签(自动标记)或识别标签特别有用的数据点(主动学习)。
例如,主动学习已被用于皮肤癌诊断的研究。一个图像分类模型最初训练100张照片,根据它们是描绘皮肤癌还是健康皮肤进行标记然后,模型可以访问更大的潜在训练图像集,从中选择100张额外的照片进行标记并添加到其训练数据中。为了从现有数据中尽可能多地学习,该模型被设计为根据哪些图像在学习区分健康皮肤照片和皮肤癌照片时最有信息量,选择额外的照片进行标记。
人工数据生成 是一种通过创建新的数据点或其他相关技术,寻求从少量数据中最大限度地提取信息的方法。这可以从简单地对现有数据进行小的更改(例如,裁剪或旋转图像分类数据集中的图像)到更复杂的方法,旨在推理可用数据的底层结构并从中推断。
一个简单的例子是,计算机视觉研究人员已经能够使用计算机辅助设计(CAD)软件(从造船到广告行业广泛使用的工具)来生成日常物体的逼真3D图像,然后使用这些图像来增强现有的图像数据集当存在关于感兴趣的数据的单独信息源时(在本例中是众包CAD模型),这样的方法更加可行。在其他情况下,可能需要更复杂的方法。一般来说,数据生成需要对所讨论的数据做出这样或那样的强大假设,生成的数据的有用程度取决于这些假设的有效程度。
生成额外数据的能力不仅在处理小型数据集时有用。在某些情况下,任何单个数据的细节可能是敏感的(例如,个人的健康记录),但数据的总体分布是研究人员感兴趣的,合成数据可用于模糊私人信息,通过对数据进行随机更改,使其不易识别。
贝叶斯方法 是机器学习和统计学的一大类方法,它们有两个共同的特征。首先,他们试图明确地将关于问题结构的信息——所谓的“先验”信息——纳入他们解决问题的方法中这与大多数其他机器学习方法形成对比,这些方法倾向于对所讨论的问题做出最小的假设。通过在现有数据的基础上进一步改进之前结合这些“先验”信息,贝叶斯方法更适合于某些数据有限的情况,但可以用有用的数学形式写出关于问题的信息。其次,贝叶斯方法侧重于对其预测的不确定性进行校准。这在数据可用性有限的情况下很有帮助,因为估计不确定性的贝叶斯方法更容易识别数据点,如果收集到这些数据点,将在减少不确定性方面最有价值。
作为使用小数据的贝叶斯工作的一个例子,贝叶斯方法已被用于监测全球地震活动,这与探测地震和验证核条约都相关。通过建立一个结合地震学先验知识的模型,研究人员可以充分利用现有数据来改进模型。
贝叶斯方法的家族是一个很大的家族,并且不仅仅由特别擅长于处理小型数据集的方法组成。为了简单起见,我们在这项研究的包容性方面犯了错误,尽管这可能意味着包括在这一类别中的一些研究使用了大型数据集。
强化学习 是一个广义的术语,指的是机器学习方法,其中代理(计算机系统)通过试错学习如何与环境交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。
例如,强化学习已被用于训练学习玩视频游戏的AI系统,从简单的街机游戏如Pong,到战略游戏如星际争霸。在每种情况下,系统一开始对如何玩游戏知之甚少(或一无所知),但通过尝试并观察什么会产生积极的奖励信号而逐渐学习。(以电子游戏为例,奖励信号通常以玩家得分的形式出现。
强化学习系统通常最终会从大量数据中学习,并需要大量的计算资源,所以它们似乎是一个不太直观的类别。尽管如此,我们还是把它们包括进来,因为它们使用的数据通常是在系统训练时产生的——通常是在模拟环境中——而不是事先收集和标记的。在强化学习问题中,智能体与环境交互的能力是至关重要的。
图1表示了这些不同的区域如何相互连接。每个点代表一个研究集群(即一组论文),我们将其确定为属于上述类别之一(参见附录中的方法细节)。连接一个研究集群和另一个研究集群的线的粗细表示两个研究集群之间引文链接的强度没有一行表示没有引用链接。我们可以看到,虽然集群确实倾向于与同一类别的其他集群联系最多,但不同类别的集群之间也有大量的联系。该图还显示,我们在“强化学习”下识别的聚类形成了一个特别连贯的分组,而“人工数据”聚类则更加分散。
图1小数据研究集群网络图
小数据方法的意义:
与数据密集型方法相比,不依赖于大型预收集的标记数据集的人工智能方法具有许多优势。除其他因素外,这些方法可以:
减少大实体和小实体之间的能力差异
对于许多人工智能应用程序来说,大型数据集的价值不断增长,这引起了人们对不同组织在收集、存储和处理所需数据方面能力差异的担忧。这种动态有可能在人工智能“拥有者”(如大型科技公司)和“没有者”之间产生差距,这取决于谁有能力满足这些需求。如果诸如迁移学习、自动标记、贝叶斯方法等方法可以用更少的数据应用人工智能,那么在数据方面,小型组织的进入壁垒将会降低,这有助于减少大型实体和小型实体之间的能力差异。
减少收集大量个人资料的动机
一些调查表明,大多数美国人认为人工智能将大大压缩个人隐私空间,这种担忧源于这样一种观点:大型科技公司继续收集越来越多与个人身份相关的消费者数据,以训练它们的人工智能算法。某些小数据方法通过减少收集用于训练机器学习模型的真实数据的需求,有可能减少这种担忧。特别是,能够人工生成新数据的方法(如合成数据生成),或使用模拟训练算法的方法,要么不依赖于个人生成的数据,要么有可能合成数据以删除敏感的个人可识别属性,虽然这并不意味着所有的隐私问题都将得到解决,但通过减少收集大量真实世界数据的需求,这种方法可以使机器学习的使用在某种程度上减少对大规模收集、使用或披露消费者数据的担忧。
在可获得数据点较少的领域取得进展
人工智能领域最近的许多进展都得益于可用数据的爆炸式增长。然而,对于许多重要的问题,可能只有很少或根本没有数据可以输入人工智能系统。例如,想象一下,为一组没有电子健康记录的人构建一个预测疾病风险的算法,或者预测具有长时间喷发复发性的火山爆发的可能性小数据方法可以为我们提供一种有原则的方法来处理这种数据的缺乏或缺失。它可以通过利用有标记和无标记的数据,从相关问题转移知识来实现这一点。小数据还可以帮助我们使用手头的少量数据点来创建更多数据点,利用有关相关领域的先验知识,或者通过构建模拟或编码结构假设来冒险进入一个新领域。
避免脏数据问题
某些小数据方法可以使大组织受益,尽管数据可能存在,但距离干净、结构整齐并可用于分析还有很长的路要走。例如,由于孤立的数据基础设施和遗留系统,美国国防部拥有大量的“脏数据”,这需要耗时和劳动密集型的数据清理、标记和组织过程例如,数据标签类别中的方法可以通过自动生成标签来更容易地处理大量未标记的数据。迁移学习、贝叶斯方法或人工数据方法分别依赖相关数据集、结构化模型和合成数据,通过减少需要清理的数据量,可以显著减少脏数据问题的规模。
更普遍地说,我们还认为,对于那些工作与人工智能相关的政策制定者来说,清楚地了解数据在人工智能发展中所发挥的作用(以及不发挥的作用)是很重要的。上述因素并不适用于我们所描述的所有方法。例如,强化学习通常需要大量的数据,但这些数据是在训练过程中生成的(例如,当AI系统移动机械臂或在虚拟环境中导航时),而不是事先收集的。
发现:
为了探索小数据方法的研究是如何进行的,我们使用CSET的研究集群数据集来确定与上述五个类别相关的研究(迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习)。研究集群是由引用链接连接起来的一组科学研究文章,在这些实例中,研究人员正在交流他们使用的想法、方法、结果,或以其他任何方式建立在其他研究人员的工作之上。
为了我们的分析,我们确定了150个研究集群,属于我们的五个类别之一。为了进行比较,数据集包括735个AI集群。这150个确定的集群包括大约80324篇论文,这些论文来自CSET合并的学术文献语料库,占世界学术产出的90%以上。为了确定哪些论文属于我们的“小数据”类别,我们首先与技术专家合作,定义了一组与我们的五个类别相关的关键词。接下来,我们搜索从集群中的论文中提取的最热门短语中的任何关键词的集群。最后,我们手动排除了与小数据明显无关的集群。一旦我们确定了我们想要使用的150个集群,每个集群都与我们的五个类别中的一个相关联,我们就把这些研究集群中的所有论文都归入相应的类别在遵循这种方法时,我们试图平衡准确性和包容性,但很有可能我们遗漏了一些相关论文,这些论文没有在他们的研究社区中引用过多的作者,或者我们纳入的一些研究论文可能由于引用而连接到一个集群,但可能没有直接涉及正在考虑的主题。因此,我们鼓励读者将以下部分中的分析视为探索性的,而不是决定性的。有关我们方法的更多细节,请参阅附录A。
在下面的小节中,我们介绍了我们在三个支柱(研究进展、国家竞争力和资金)的相关研究集群中确定的所有论文的发现。通过这一分析,我们希望检查在开发这些方法的科学研究中当前和预计的进展,哪个国家领先,以及这项研究的主要资金来源。
研究进展:
就研究量而言,我们的五类“小数据”方法在过去十年中有着非常不同的轨迹。如图2所示,强化学习和贝叶斯方法是论文数量最多的两个类别。虽然贝叶斯聚类的论文数量在过去十年中稳步增长,但强化学习聚类只从2015年开始增长,然后在2017年至2019年期间增长尤其迅速。这可能是由于深度强化学习在2015年之前一直面临技术挑战,取得了革命性的进步。相比之下,在过去十年中,每年以集群形式发表的人工数据生成和数据标签研究论文数量一直相当低。最后,迁移学习类别在2010年开始很小,但到2020年已经大幅增长。
Figure 2. Trends in small data publications, 2010–2020
当然,纯粹的出版物数量并不能说明论文质量。我们考虑两个指标来评估每个类别集群中的论文质量:h-index和age-corrected引文。h-index是一个常用的度量标准,用于捕捉一个论文集合的发表活动和总引用影响——在我们的例子中,是归于每个类别的论文群。然而,h-index的一个局限性是它没有考虑论文的age(也就是说,老论文有更多的时间来积累引用)。因此,h-index低估了那些最具影响力的论文更新且尚未收集到引用的论文群,为了对此进行调整,图3还描述了age-corrected的引用。从图中可以看出,仅在h-index上,强化学习和贝叶斯方法大致相等,但考虑到论文的age后,强化学习名列前茅。这意味着对于我们确定的研究集群,贝叶斯方法的累积影响似乎更高,但强化学习因其相对近期的论文产量和引用影响激增而脱颖而出。
Figure 3. H-index and age-corrected citations by category, 2010– 2020
然而,认为强化学习在过去十年中增长最快是错误的。更仔细地观察每个类别随时间的增长,图4清楚地表明,迁移学习在2011年至2020年期间的增长最为稳定,除了两年之外,其他年份的增长都最高。图表还显示了人工数据生成在过去五年中所看到的增长,由于这一类别的总论文数量较少,这在图3中不太明显。然而,在2012年至2015年期间,它的增长数据也出现了最大的下降,因此很难对这一类别的增长轨迹得出具体的结论。
Figure 4. Year-on-year growth by category, 2011–2020
图5根据CSET开发的预测模型比较了每个类别的三年增长预测,并将另一个类别的“AI整体”论文作为基准进行比较如图所示,迁移学习是唯一一个预计增长速度超过人工智能研究整体的类别,远远超过所有其他类别,与前几年的持续增长一致。
Figure 5. Growth forecast for 2023 by category
注:未来增长指数基于CSET对研究集群增长的预测计算。有关方法的更多细节,请参阅附录A
国家竞争力:
在本节中,我们将通过查看全球前10个国家在这些方法中的研究进展来探索小数据方法中的国家竞争力。我们使用简单的衡量标准,如发表的论文数量和age调整后的引用数量,以获得各国在每个类别中的相对地位的初步情况,但我们鼓励读者探索其他指标,以充分了解一个国家在小数据方法中的潜力。
表1显示了小数据出版物排名前10的国家按类别发表的论文总数。与人工智能研究的整体结果一致,在我们确定的包含小数据相关研究的集群中,中国和美国是论文的前两个生产国,英国紧随其后。中国在数据标记和迁移学习方法方面的学术论文总量领先,而美国在贝叶斯方法、强化学习和人工数据生成方面处于领先地位。
Table 1. Number of publications by category for top 10 countries globally
值得注意的是,除了美国和中国,所有小数据研究排名前10的国家都是美国的盟友或合作伙伴,俄罗斯等国家明显不在名单中,然而,这里的数据趋势也可能是由于我们多次统计了来自不同国家的多名作者的论文,而美国及其盟国的研究人员合作的论文由于重复计算而反映了更高的单独计数。我们对这些论文的合作作者的分析支持了这一评估。
论文引用量通常被用来衡量研究质量和影响,我们的研究结果表明,中国的大量研究可能不是所有小数据类别的高质量研究。如表2所示,在研究引用次数(可以大致理解为每年的引用次数)时,中国在所有方法上的排名都低于美国。在所有小数据类别中,中国的age-corrected引用数排名第二,但贝叶斯方法除外,在贝叶斯方法中,中国的排名进一步下滑至第七。这意味着,尽管中国可能在贝叶斯方法上发表了大量论文,但与其他方法相比,这一领域的研究质量和影响受到的影响最大。美国在所有方法的age-corrected引用方面都处于全球领先地位。
Table 2. Number of age-corrected citations by category for top 10 countries globally
图6显示了按国家划分的三年增长预测。这里最值得注意的发现是,相对于美国和世界其他地区,中国在迁移学习方法方面的增长预计会高多少。如果准确的话,这一预测将意味着中国在迁移学习方面可能会进一步领先,至少在发表的论文数量方面是这样。
Figure 6. Growth forecast for 2023 by category for the United States, China, and the rest of the world (ROW)
注:未来增长指数基于CSET对集群增长的预测计算。有关方法的更多细节,请参阅附录A。
资助:
我们分析了小数据方法可用的资助数据,以获得我们确定属于这些方法的研究集群中资助论文的实体类型的估计。对于这里提出的发现,一个重要的警告是,我们只有大约20- 30%的论文的资助信息,尽管我们没有理由相信有和没有资助数据的论文之间存在系统性差异
在各个学科中,在政府、公司、学术界和非营利组织中,政府行为者往往是研究的最大资助者,而作者通常隶属于学术界。考虑到这一点,我们将小数据研究的结果与人工智能研究的总体结果进行了比较,看看它们有多大不同有趣的是,在全球范围内,政府资金在我们确定的与小数据方法相关的集群中所占的份额比在整个人工智能领域所占的份额要大。如图7所示,在所有五个类别中,与人工智能研究的整体资金分配相比,政府资助的份额高得不成比例。我们还观察到,非营利组织在小数据研究中所占的资金比例,比它们通常在人工智能其他领域所占的比例要小。贝叶斯方法的融资模式与人工智能的总体模式最为相似。
Figure 7. Funding sources for small data approaches relative to AI overall
图8进一步按国家分列与政府实体相关的供资信息。我们的研究结果表明,尽管总体趋势是政府资助在小数据中被过度代表,但美国政府对小数据研究的资助份额低于其在人工智能研究中的份额。另一方面,私营部门公司倾向于为美国的小数据研究提供更大的资金份额,而不是AI研究的整体份额(详情见附录B中的图9)。
Figure 8. Government funding for small data approaches relative to AI overall, by China, the United States, and the rest of the world (ROW)
当我们观察世界其他地区的数据时,这种趋势几乎相反,在这些地区,政府机构为小数据研究提供的资金比例要高得多,尤其是与私营部门相比。有趣的是,世界其他地方的非营利组织,如研究信托和基金会,与他们对所有人工智能的支持相比,对小数据论文的资助倾向较小(详情见附录B,图10)。
在中国,除了人工数据生成,政府对小数据方法的资助份额总体上小于人工智能,尽管差异不像美国那么大。
关键要素:
本文介绍和概述了一系列人工智能的“小数据”方法。最后,根据我们的研究结果,我们提出以下要点:
人工智能并不是大数据的同义词,尤其不是预先标记好的大型数据集。 大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的,但如果把大规模数据收集和标注作为人工智能进步的先决条件,就会让政策制定者误入歧途。可供选择的方法多种多样,可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺,但相关问题的数据丰富,也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决,在这个环境中,智能体可以通过试错而不是预先收集的数据来学习,那么强化学习可能是需要的;等等......
对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。 言下之意是,这种方法在未来可能会比现在工作得更好,应用得更广泛。因此,如果政策制定者面临一个感兴趣的问题缺乏数据,那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点,这将是很有帮助的。
根据我们基于聚类的研究方法,美国和中国在小数据方法上竞争激烈 ,在我们考虑的五个类别中,美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势,但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。
暂时来说,迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式,美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑,也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何,考虑到迁移学习作为一个迅速崛起的领域,它可能代表着一个有希望的机会,可以增加美国政府来源的资金。