【论文速递】CSET - 小数据的大AI潜力

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【论文速递】CSET - 小数据的大AI潜力

【论文速递】CSET - 小数据的大AI潜力

【论文原文】:Small Data’s Big AI Potential

作者信息】:Husanjot Chahal,Helen Toner,Ilya Rahkovsky

获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

博主关键词: 小数据,应用分析

推荐相关论文:

- 无

概要:

本问题简介提供了“小数据”人工智能方法的介绍和概述,即帮助解决很少或没有标记数据可用的情况的方法,并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解,数据是一种重要的战略资源,尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在,并掩盖了其潜力,这些方法不需要大量的数据集进行训练。

我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法,我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集,介绍了一些探索性发现,评估了小数据方法在科学研究中的当前和预计进展,概述了哪个国家处于领先地位,以及这项研究的主要资金来源。根据我们的研究结果,我们总结出以下四个关键要点:

a)人工智能并不是大数据的同义词,在不同的小数据设置中,有几种替代方法可以使用。

b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快),这使得这种方法在未来可能比今天更好地工作,并得到更广泛的应用。

c)美国和中国在小数据方法上竞争激烈,美国在强化学习和贝叶斯方法这两个最大的类别上领先,而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。

d)暂时来说,迁移学习可能是获得更多美国政府资助的一个有希望的目标,因为相对于整个人工智能领域的投资模式,它在小数据方法上的投资份额较小。

简介:

传统观点认为,尖端人工智能依赖于大量数据。根据这一人工智能概念,数据是一种重要的战略资源,一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但**如果政策制定者认为这是所有人工智能系统的永恒真理,他们就会误入歧途**。过分强调数据忽略了几种人工智能方法的存在,并低估了其潜力,这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中,我们将这些方法称为“小数据”方法。

**我们所说的“小数据”不是一个明确的类别,因此没有一个单一的、正式的、一致的定义。**学术文章讨论与考虑的应用领域相关的小数据,通常将其与样本的大小联系起来,例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据,如其可用性和人类的理解,或作为数据的数量和格式,使其可访问,信息丰富,可操作,特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和不同类型的方法,这取决于手头的问题

这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者,因为他们可以接触到现实世界互动的性质,以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为,中国拥有独特的优势,因为它可以获得更多的数据,理由是中国人口众多,数据收集能力强,缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术,这些技术使这种情况不像通常假设的那样真实。

最后,有时有人认为,政府机构只有能够将大量数据数字化、清理和标记,才能从人工智能革命中受益。虽然这一建议是有道理的,但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点,即**人工智能的未来可能不仅与大数据有关,而且在没有对大数据基础设施进行大规模投资的情况下,政府领域(及其他领域)的人工智能创新仍然可以发生**。

在接下来的文章中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法,哪些类别构成了这些方法的一部分,以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集,特别是我们合并的学术文献语料库,涵盖了世界上90%以上的学术产出,以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展,并确定哪个国家处于领先地位,以及所研究的研究的主要资金来源。基于我们的研究结果,我们总结了四个关键要点。

关键要素:

本文介绍和概述了一系列人工智能的“小数据”方法。最后,根据我们的研究结果,我们提出以下要点:

**人工智能并不是大数据的同义词,尤其不是预先标记好的大型数据集。**大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的,但如果把大规模数据收集和标注作为人工智能进步的先决条件,就会让政策制定者误入歧途。可供选择的方法多种多样,可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺,但相关问题的数据丰富,也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决,在这个环境中,智能体可以通过试错而不是预先收集的数据来学习,那么强化学习可能是需要的;等等…

对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。言下之意是,这种方法在未来可能会比现在工作得更好,应用得更广泛。因此,如果政策制定者面临一个感兴趣的问题缺乏数据,那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点,这将是很有帮助的。

根据我们基于聚类的研究方法,美国和中国在小数据方法上竞争激烈,在我们考虑的五个类别中,美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势,但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。

暂时来说,迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式,美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑,也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何,考虑到迁移学习作为一个迅速崛起的领域,它可能代表着一个有希望的机会,可以增加美国政府来源的资金。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
21天前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
436 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
10天前
|
消息中间件 人工智能 Kafka
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
125 14
|
3天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
|
7天前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)
|
7天前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
7天前
|
机器学习/深度学习 人工智能 算法
拔俗AI智能营运分析助手:用技术破解企业“数据焦虑”
AI智能营运分析助手破解企业“数据多却难洞察”难题,通过自动化集成、定制化模型、可视化输出,助力中小企业实现低门槛数据驱动决策,提升营运效率与精准度。
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI体征营养指导系统:从数据到建议的技术闭环
AI如何读懂身体并给出科学营养建议?本文从开发者视角揭秘三大核心技术:多源异构数据融合,构建个性化推荐引擎,以及反馈驱动的持续学习系统。通过打通“感知-决策-反馈”闭环,AI真正实现千人千面的动态营养指导,成为可进化的健康伙伴。(238字)
|
14天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
195 16
|
25天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
457 27
|
11天前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
构建企业级 AI 应用:为什么我们需要 AI 中间件?

热门文章

最新文章