【论文速递】CSET - 小数据的大AI潜力

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【论文速递】CSET - 小数据的大AI潜力

【论文速递】CSET - 小数据的大AI潜力

【论文原文】:Small Data’s Big AI Potential

作者信息】:Husanjot Chahal,Helen Toner,Ilya Rahkovsky

获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

博主关键词: 小数据,应用分析

推荐相关论文:

- 无

概要:

本问题简介提供了“小数据”人工智能方法的介绍和概述,即帮助解决很少或没有标记数据可用的情况的方法,并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解,数据是一种重要的战略资源,尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在,并掩盖了其潜力,这些方法不需要大量的数据集进行训练。

我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法,我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集,介绍了一些探索性发现,评估了小数据方法在科学研究中的当前和预计进展,概述了哪个国家处于领先地位,以及这项研究的主要资金来源。根据我们的研究结果,我们总结出以下四个关键要点:

a)人工智能并不是大数据的同义词,在不同的小数据设置中,有几种替代方法可以使用。

b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快),这使得这种方法在未来可能比今天更好地工作,并得到更广泛的应用。

c)美国和中国在小数据方法上竞争激烈,美国在强化学习和贝叶斯方法这两个最大的类别上领先,而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。

d)暂时来说,迁移学习可能是获得更多美国政府资助的一个有希望的目标,因为相对于整个人工智能领域的投资模式,它在小数据方法上的投资份额较小。

简介:

传统观点认为,尖端人工智能依赖于大量数据。根据这一人工智能概念,数据是一种重要的战略资源,一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但**如果政策制定者认为这是所有人工智能系统的永恒真理,他们就会误入歧途**。过分强调数据忽略了几种人工智能方法的存在,并低估了其潜力,这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中,我们将这些方法称为“小数据”方法。

**我们所说的“小数据”不是一个明确的类别,因此没有一个单一的、正式的、一致的定义。**学术文章讨论与考虑的应用领域相关的小数据,通常将其与样本的大小联系起来,例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据,如其可用性和人类的理解,或作为数据的数量和格式,使其可访问,信息丰富,可操作,特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和不同类型的方法,这取决于手头的问题

这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者,因为他们可以接触到现实世界互动的性质,以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为,中国拥有独特的优势,因为它可以获得更多的数据,理由是中国人口众多,数据收集能力强,缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术,这些技术使这种情况不像通常假设的那样真实。

最后,有时有人认为,政府机构只有能够将大量数据数字化、清理和标记,才能从人工智能革命中受益。虽然这一建议是有道理的,但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点,即**人工智能的未来可能不仅与大数据有关,而且在没有对大数据基础设施进行大规模投资的情况下,政府领域(及其他领域)的人工智能创新仍然可以发生**。

在接下来的文章中,我们的目标不仅是指出使用小数据方法的潜在好处,而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法,哪些类别构成了这些方法的一部分,以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集,特别是我们合并的学术文献语料库,涵盖了世界上90%以上的学术产出,以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展,并确定哪个国家处于领先地位,以及所研究的研究的主要资金来源。基于我们的研究结果,我们总结了四个关键要点。

关键要素:

本文介绍和概述了一系列人工智能的“小数据”方法。最后,根据我们的研究结果,我们提出以下要点:

**人工智能并不是大数据的同义词,尤其不是预先标记好的大型数据集。**大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的,但如果把大规模数据收集和标注作为人工智能进步的先决条件,就会让政策制定者误入歧途。可供选择的方法多种多样,可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺,但相关问题的数据丰富,也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决,在这个环境中,智能体可以通过试错而不是预先收集的数据来学习,那么强化学习可能是需要的;等等…

对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。言下之意是,这种方法在未来可能会比现在工作得更好,应用得更广泛。因此,如果政策制定者面临一个感兴趣的问题缺乏数据,那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点,这将是很有帮助的。

根据我们基于聚类的研究方法,美国和中国在小数据方法上竞争激烈,在我们考虑的五个类别中,美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势,但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。

暂时来说,迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式,美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑,也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何,考虑到迁移学习作为一个迅速崛起的领域,它可能代表着一个有希望的机会,可以增加美国政府来源的资金。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
人工智能 关系型数据库 分布式数据库
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
|
17天前
|
机器学习/深度学习 人工智能 安全
2025年的AI与数据创新:影响企业成功的五大预测
2025年的AI与数据创新:影响企业成功的五大预测
|
22天前
|
人工智能 BI
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
|
1月前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
249 10
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
1月前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
104 14
|
1月前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
638 8
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
2月前
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
3天前
|
人工智能 Kubernetes 安全
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
20 4
|
4天前
|
人工智能 前端开发 JavaScript
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
79 2
|
11天前
|
人工智能 Java API
Spring AI与DeepSeek实战一:快速打造智能对话应用
在 AI 技术蓬勃发展的今天,国产大模型DeepSeek凭借其低成本高性能的特点,成为企业智能化转型的热门选择。而Spring AI作为 Java 生态的 AI 集成框架,通过统一API、简化配置等特性,让开发者无需深入底层即可快速调用各类 AI 服务。本文将手把手教你通过spring-ai集成DeepSeek接口实现普通对话与流式对话功能,助力你的Java应用轻松接入 AI 能力!虽然通过Spring AI能够快速完成DeepSeek大模型与。
283 11

热门文章

最新文章