生成式AI 未来发展的两大要素:数据和开发者

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 从过去一年的经验来看,未来也许还将发生翻天覆地的变革。所以,没人敢断言生成式 AI 的具体发展方向。但有一点可以肯定:数据和开发者,将始终是生成式 AI 未来发展的两大要素

这一年来,生成式 AI 领域的发展可谓日新月异。大语言模型 (LLM) 已经从学术研究圈的新宠,变成了开发者、产品经理、IT 决策者、高管等所有人都密切关注和亲身参与的重要课题。

一年间,这类问题在新闻报道、技术大会、开发者闲聊、同事讨论、博客文章中反复出现:生成式 AI 只是昙花一现的炒作吗?会不会只是一时的技术风潮?AI 在多次曙光初现后又经历了漫长的低谷期,这一次它真的能长盛不衰吗?如果这一切都是大势所趋,企业又该如何利用生成式 AI 的力量去颠覆市场,而不是被淘汰出局呢?

让我们一起来听听一些开发者对生成式 AI 的心声:

● “生成式 AI 能帮助开发者更快速、更安全地构建应用,但它肯定不会取代人类。”
——来自某位开发者

●“我对那些能提升开发效率的工具充满期待,比如 CodeWhisperer。”
——来自某云服务公司的运营主管

●“生成式 AI 一定会蓬勃发展下去。”
——来自某位首席技术官

这些言论的中心思想是一样的,那就是生成式 AI 必将为开发者赋能,尤其是让开发工作变得更快速、更轻松。

如前所述,最典型的例子就是 Amazon CodeWhisperer,它利用 AI 驱动的代码为开发者大幅提升了开发效率。然而,用于训练 Amazon CodeWhisperer 等生成式 AI 编程助手的数据质量至关重要。

为此,MongoDB与Amazon CodeWhisperer数据科学团队携手,以MongoDB的大量使用案例来训练CodeWhisperer的底层模型,力求为开发者提供最佳的代码参考。

生成式 AI 的进步不仅让开发者的工作更高效、更轻松,更重要的是,它大大降低了构建 AI 应用的门槛。现在,即使是没有太多 AI/ML 经验的开发者,也能在应用开发中轻松驾驭大语言模型 (LLM)。

实际上,相比以往,开发者现在要打造一款 AI 驱动的应用简直易如反掌。一位参会的数据工程师这样评论:“生成式 AI 为毫无 AI 从业经验的人敞开了大门,让他们也能利用自身的业务领域知识参与到 AI 应用的开发浪潮中。”

检索增强生成 (Retrieval-Augmentation Generation,简称 RAG) 是一个很好的范例。正如 MongoDB 的 Mat Keep 所说:“就在一年之前,检索增强生成 (RAG) 还是一个晦涩难懂的深奥概念。但随着生成式 AI 的大火,RAG 架构如今已经成为企业级应用的标配。”

RAG 技术对开发者来说可谓是一件相当趁手的工具。这一技术将预训练通用生成式 AI 模型惊人的知识量和推理能力,与企业内部及时准确的定制化数据完美结合。如此一来,开发者就能快速搭建出一款基于企业私域数据和知识的 AI 应用,而无需投入成本和时间让专业的数据科学团队去训练和调优模型。RAG 只是新一代 AI 开发工具和技术变革浪潮的一个缩影,这些工具和技术能够让开发者有信心、有把握地拥抱 AI 时代。

纵观以上种种,不难看出,当前生成式 AI 蓬勃发展的新时代,离不开诸多开发者的积极探索和参与。即便如此,由于任何人都能轻松获取和使用先进的商用或开源生成式 AI 模型,企业竞争的制胜法宝最终还是要回归到自身独一无二的资产:数据。

展望未来,我们不禁要问:开发者们会就生成式 AI 展开哪些新的讨论?从过去一年的经验来看,未来也许还将发生翻天覆地的变革。所以,没人敢断言生成式 AI 的具体发展方向。但有一点可以肯定:数据和开发者,将始终是生成式 AI 未来发展的两大要素。

image.png

立即报名 https://www.mongodb.com/zh-cn/events/mongodb-local/shanghai?utm_campaign=local-sh&utm_source=promotion&utm_medium=event&utm_term=promotion

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
23天前
|
人工智能 数据管理 API
阿里云百炼又获大奖!阿里云百炼入选 2024 最受开发者欢迎的 AI 应用开发平台榜15强
2024年最受开发者欢迎的AI应用开发平台榜单发布,阿里云百炼入选15强。持续推动AI开发者生态建设,提供开放平台、培训支持、行业解决方案,注重数据安全与合规,致力于生态合作与共赢,加速企业数智化转型。
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
2月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
74 6
|
8天前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
57 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
|
8天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
78 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
1天前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
25天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
60 9
【AI系统】完全分片数据并行 FSDP
|
25天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
96 7
【AI系统】数据并行
|
1天前
|
人工智能 数据处理 C#
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。
33 13