【论文速递】CSET - 小数据的大AI潜力

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【论文速递】CSET - 小数据的大AI潜力

【论文速递】CSET - 小数据的大AI潜力

【论文原文】:Small Data’s Big AI Potential

作者信息】:Husanjot Chahal,Helen Toner,Ilya Rahkovsky

获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

博主关键词: 小数据,应用分析

推荐相关论文:

- 无

概要:

本问题简介提供了“小数据”人工智能方法的介绍和概述,即帮助解决很少或没有标记数据可用的情况的方法,并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解,数据是一种重要的战略资源,尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在,并掩盖了其潜力,这些方法不需要大量的数据集进行训练。

我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法,我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集,介绍了一些探索性发现,评估了小数据方法在科学研究中的当前和预计进展,概述了哪个国家处于领先地位,以及这项研究的主要资金来源。根据我们的研究结果,我们总结出以下四个关键要点:

a)人工智能并不是大数据的同义词,在不同的小数据设置中,有几种替代方法可以使用。

b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快),这使得这种方法在未来可能比今天更好地工作,并得到更广泛的应用。

c)美国和中国在小数据方法上竞争激烈,美国在强化学习和贝叶斯方法这两个最大的类别上领先,而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。

d)暂时来说,迁移学习可能是获得更多美国政府资助的一个有希望的目标,因为相对于整个人工智能领域的投资模式,它在小数据方法上的投资份额较小。

简介:

传统观点认为,尖端人工智能依赖于大量数据。根据这一人工智能概念,数据是一种重要的战略资源,一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但**如果政策制定者认为这是所有人工智能系统的永恒真理,他们就会误入歧途**。过分强调数据忽略了几种人工智能方法的存在,并低估了其潜力,这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中,我们将这些方法称为“小数据”方法。

**我们所说的“小数据”不是一个明确的类别,因此没有一个单一的、正式的、一致的定义。**学术文章讨论与考虑的应用领域相关的小数据,通常将其与样本的大小联系起来,例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据,如其可用性和人类的理解,或作为数据的数量和格式,使其可访问,信息丰富,可操作,特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和不同类型的方法,这取决于手头的问题

这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者,因为他们可以接触到现实世界互动的性质,以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为,中国拥有独特的优势,因为它可以获得更多的数据,理由是中国人口众多,数据收集能力强,缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术,这些技术使这种情况不像通常假设的那样真实。

最后,有时有人认为,政府机构只有能够将大量数据数字化、清理和标记,才能从人工智能革命中受益。虽然这一建议是有道理的,但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点,即**人工智能的未来可能不仅与大数据有关,而且在没有对大数据基础设施进行大规模投资的情况下,政府领域(及其他领域)的人工智能创新仍然可以发生**。

在接下来的文章中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法,哪些类别构成了这些方法的一部分,以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集,特别是我们合并的学术文献语料库,涵盖了世界上90%以上的学术产出,以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展,并确定哪个国家处于领先地位,以及所研究的研究的主要资金来源。基于我们的研究结果,我们总结了四个关键要点。

关键要素:

本文介绍和概述了一系列人工智能的“小数据”方法。最后,根据我们的研究结果,我们提出以下要点:

**人工智能并不是大数据的同义词,尤其不是预先标记好的大型数据集。**大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的,但如果把大规模数据收集和标注作为人工智能进步的先决条件,就会让政策制定者误入歧途。可供选择的方法多种多样,可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺,但相关问题的数据丰富,也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决,在这个环境中,智能体可以通过试错而不是预先收集的数据来学习,那么强化学习可能是需要的;等等…

对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。言下之意是,这种方法在未来可能会比现在工作得更好,应用得更广泛。因此,如果政策制定者面临一个感兴趣的问题缺乏数据,那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点,这将是很有帮助的。

根据我们基于聚类的研究方法,美国和中国在小数据方法上竞争激烈,在我们考虑的五个类别中,美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势,但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。

暂时来说,迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式,美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑,也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何,考虑到迁移学习作为一个迅速崛起的领域,它可能代表着一个有希望的机会,可以增加美国政府来源的资金。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
13天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
43 6
|
6天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
14天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
14天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
22天前
|
人工智能 开发者
通义灵码一周年数据报:你的 AI 编码助手身份标签是什么?
通义灵码一周年数据报,等你来开AI编码身份标签。
47 3
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解

热门文章

最新文章