【论文速递】CSET - 小数据的大AI潜力

简介: 【论文速递】CSET - 小数据的大AI潜力

【论文速递】CSET - 小数据的大AI潜力

【论文原文】:Small Data’s Big AI Potential

作者信息】:Husanjot Chahal,Helen Toner,Ilya Rahkovsky

获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

博主关键词: 小数据,应用分析

推荐相关论文:

- 无

概要:

本问题简介提供了“小数据”人工智能方法的介绍和概述,即帮助解决很少或没有标记数据可用的情况的方法,并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解,数据是一种重要的战略资源,尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在,并掩盖了其潜力,这些方法不需要大量的数据集进行训练。

我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法,我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集,介绍了一些探索性发现,评估了小数据方法在科学研究中的当前和预计进展,概述了哪个国家处于领先地位,以及这项研究的主要资金来源。根据我们的研究结果,我们总结出以下四个关键要点:

a)人工智能并不是大数据的同义词,在不同的小数据设置中,有几种替代方法可以使用。

b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快),这使得这种方法在未来可能比今天更好地工作,并得到更广泛的应用。

c)美国和中国在小数据方法上竞争激烈,美国在强化学习和贝叶斯方法这两个最大的类别上领先,而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。

d)暂时来说,迁移学习可能是获得更多美国政府资助的一个有希望的目标,因为相对于整个人工智能领域的投资模式,它在小数据方法上的投资份额较小。

简介:

传统观点认为,尖端人工智能依赖于大量数据。根据这一人工智能概念,数据是一种重要的战略资源,一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但**如果政策制定者认为这是所有人工智能系统的永恒真理,他们就会误入歧途**。过分强调数据忽略了几种人工智能方法的存在,并低估了其潜力,这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中,我们将这些方法称为“小数据”方法。

**我们所说的“小数据”不是一个明确的类别,因此没有一个单一的、正式的、一致的定义。**学术文章讨论与考虑的应用领域相关的小数据,通常将其与样本的大小联系起来,例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据,如其可用性和人类的理解,或作为数据的数量和格式,使其可访问,信息丰富,可操作,特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和不同类型的方法,这取决于手头的问题

这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者,因为他们可以接触到现实世界互动的性质,以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为,中国拥有独特的优势,因为它可以获得更多的数据,理由是中国人口众多,数据收集能力强,缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术,这些技术使这种情况不像通常假设的那样真实。

最后,有时有人认为,政府机构只有能够将大量数据数字化、清理和标记,才能从人工智能革命中受益。虽然这一建议是有道理的,但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点,即**人工智能的未来可能不仅与大数据有关,而且在没有对大数据基础设施进行大规模投资的情况下,政府领域(及其他领域)的人工智能创新仍然可以发生**。

在接下来的文章中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法,哪些类别构成了这些方法的一部分,以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集,特别是我们合并的学术文献语料库,涵盖了世界上90%以上的学术产出,以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展,并确定哪个国家处于领先地位,以及所研究的研究的主要资金来源。基于我们的研究结果,我们总结了四个关键要点。

关键要素:

本文介绍和概述了一系列人工智能的“小数据”方法。最后,根据我们的研究结果,我们提出以下要点:

**人工智能并不是大数据的同义词,尤其不是预先标记好的大型数据集。**大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的,但如果把大规模数据收集和标注作为人工智能进步的先决条件,就会让政策制定者误入歧途。可供选择的方法多种多样,可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺,但相关问题的数据丰富,也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决,在这个环境中,智能体可以通过试错而不是预先收集的数据来学习,那么强化学习可能是需要的;等等…

对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。言下之意是,这种方法在未来可能会比现在工作得更好,应用得更广泛。因此,如果政策制定者面临一个感兴趣的问题缺乏数据,那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点,这将是很有帮助的。

根据我们基于聚类的研究方法,美国和中国在小数据方法上竞争激烈,在我们考虑的五个类别中,美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势,但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。

暂时来说,迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式,美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑,也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何,考虑到迁移学习作为一个迅速崛起的领域,它可能代表着一个有希望的机会,可以增加美国政府来源的资金。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6天前
|
人工智能 NoSQL atlas
生成式AI入门必读:基本概念、数据挑战与解决方案
为了实现这一目标,许多企业正在选择MongoDB Atlas
|
7天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
33 0
|
7天前
|
数据采集 人工智能 数据挖掘
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
17 0
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
|
18天前
|
Cloud Native 关系型数据库 分布式数据库
数据之势丨云原生数据库,走向Serverless与AI驱动的一站式数据平台
在大模型席卷之下,历史的齿轮仍在转动,很多人开始思考,大模型能为数据库带来哪些改变。阿里云数据库产品事业部负责人李飞飞表示,数据库和智能化的结合是未来非常重要的发展方向,数据库的使用门槛将大幅降低。
|
18天前
|
数据采集 机器学习/深度学习 人工智能
|
18天前
|
机器学习/深度学习 数据采集 人工智能
|
20天前
|
人工智能 Cloud Native 算法
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1543 0
与世界同行 2017中国人工智能大会有感
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章