从数据积累到大模型的智能飞跃,你准备好了吗?

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 在数据驱动的时代,人工智能(AI)正重塑世界。蚂蚁集团的师文汇在「DATA+AI」论坛上发表演讲,阐述了《数据驱动的AI原生应用与开放框架》。他指出,AI应用经历了从数据积累到大模型的智能飞跃,数据已成为智能应用成功的关键。师文汇强调,构建智能应用需结合优质大模型与行业数据。演讲还介绍了AI原生应用的研发变革与挑战,包括编程模型转变、研发范式的不确定性及与现有系统的交互等问题。此外,他还分享了AI原生应用框架的思考与探索,提出了泛ETL、实验反馈机制及应对不确定性等解决方案,并展示了DB-GPT在政企、金融等多个领域的应用案例。

在这个数据驱动的时代,人工智能(AI)正以其独特的方式重塑我们的世界。在「DATA+AI」见解论坛上,蚂蚁集团数据基础设施与高可用负责人师文汇发表了题为《数据驱动的AI原生应用与开放框架》的主题演讲。

Tips:你可以关注"EosphorosAI"公众号,回复“0912”获取师文汇演讲PPT

随着大模型的出现,AI应用迎来了一次重大的变革。数据,不再仅仅是信息的载体,而是变成了智能应用成功的关键。师文汇指出,AI应用的发展经历了从数据积累到大模型的智能飞跃,我们正站在一个新的技术前沿。

image.png

AI应用的演化:从数据积累到大模型的智能飞跃

回顾应用研发方式的变革,早期以数据为核心的非智能化的应用,通常聚焦在某个特定的领域的特定问题,解决的是有明确答案的问题,比如支付、交易等业务。通过有限的状态流转实现业务逻辑推进,所有的流程都是标准化的。

在大模型出现以前,为了解决一个特定领域千人千面的问题,解空间已经很难用状态机描述,例如推荐、搜索,通过应用大量的数据积累以及小模型的的迭代,获取越来越准确的小模型,实现了第一代的智能应用。这其实是以大量的数据和小的判别式模型所构成的。

image.png

现在,大模型使得我们能够处理更加复杂和发散性的问题。数据的角色从辅助变为核心,成为智能应用成功的关键。在大模型时代,我们不再仅仅依赖应用来积累数据。我们可以做到数据先行,可以通过数据引入或者数据标注的方式沉淀这些数据。

我们认为构建以数据为核心的智能应用的关键因素是打造一个能力较好的大模型加上优质的行业数据。

对智能应用来说数据包含了两种类别:

  • 应用数据:传统应用积累的结构化、半结构化以及非结构化数据;
  • 引入数据:通过数据引入和标注手段获取的数据。

数据来源不仅仅通过应用逐步的沉淀,通过引入数据可以真正做到数据先行。

AI原生应用研发的变革与挑战

1.编程模型的转变:
从以流程为核心到以数据为核心,我们的编程模型正在发生重大变革。以前,我们用C++等语言开发程序,流程是固定的,我们沉淀了很多的研发工具,做集成测试。在大模型时代,整个AI原生应用的设计会简化原来状态流转和SOP,我们更多地关注如何处理和加工数据。

SQL定义了处理结构化数据的范式,在大模型时代下,我们现在需要新的方法来处理非结构化数据,如音频、视频和图片,甚至文本。我们是不是可以创新出一种全新的类似SQL的范式去处理这些非结构化的数据,这是一个长期的过程,需要我们不断探索和创新积累。

2.研发范式的不确定性:
大模型的本质是概率模型,我们很难解决幻觉问题,或者准确性的问题。但很多应用需要严格的执行结果。我们如何降低大模型的不确定性失效成本,提升研发迭代效率,是后续非常重要的一环。

3.与现有系统的交互:
在建设新的数据为核心的AI应用时,无论是建立新的应用、还是升级老的系统,如何高效的利用已有系统的能力,也能够让已有系统更好的利用新的A原生应用的能力也是一个非常关键的问题。传统的RPC都是面向二进制来设计的,如何高效的在网络上传输,如何建立新的规范帮助AI Agent、AI原生应用的交流是一个很关键的问题。

AI原生应用框架的思考

我们希望构建沉淀一个新的框架,去应对解决AI原生的数据应用面临的数据编程、不确定的问题。

image.png
面向数据编程:

  • 泛ETLs:我们要把数据处理(ETL)做得更加广泛,不仅仅像以前是为了做报表或帮助ML清洗数据,基本上是for人类、for决策的;我们现在的ETL为了大模型更智能,从数据到知识的能力。

  • 实验反馈:模型的架构决定了模型能力的下限,数据决定了整个AI应用的质量和上限,我们如何加工高质量的数据,其实是非常大的挑战,在这里最重要的是我们要建立起一套完整的端到端的实验反馈体系,通过框架提升反馈闭环的效率。

image.png
应对不确定性:

  • 我们希望加快AI原生应用的开发迭代,减少因模型不确定性导致的失败成本。
  • 通过标准的SOP来约束应用的流程,确保业务流程的关键流程和路径是可控的,同时SOP也能够帮助LLM获取足够的信息。e.g.想象一下,我们要开发一个旅游AI助手,它在给你推荐旅行计划前,得先知道你的预算、目的地和想参观的景点。我们希望通过SOP编排的方式,用一种有序的步骤安排,来确保这个助手能根据这些关键信息点,为你做出最合适的建议。

AI原生应用的探索

第一阶段:从Talk to DB(0.1版本)到 Talk to Data(0.4版本),我们尝试让所有人能用自然语言与数据交互。在V0.1中我们希望通过自然语言对DB数据的处理来完成业务逻辑,如取数、分析、AI/BI等等。在V0.4中,我们开始全面支持talk to data,以结构化数据为核心,通过大语言模型实现自然语言与不同种类、不同来源的数据交互。尽管这个产品在能解决的问题上还有局限。

第二阶段:Data-Driven Agent(0.5版本),在这期间业界有了非常多对于Agent的探讨,我们开始支持以Agent为核心的构建,Agent的灵活表达支持更多的场景。同时,2023年8月正式成立星辰智能社区,组织名Eosphoros-AI,由蚂蚁集团、京东、阿里、美团、唯品会、腾讯以及学界多名优秀的社区同学组成,希望能够共同探索Data-Driven Agent为核心的应用构建。

第三阶段:AI Native Data Apps(0.6版本),在社区的实践中,我们发现了一些Agent无法解决的问题,如金融、工厂等严谨场景下,智能体的编排、决策往往不如人意。于是社区开始探索AI原生的数据为核心的应用,以应用为核心,支持通过AWEL的严格SOP设计,支持快速、构建部署AI应用,既可以是chatbot、也可以是一个和Java应用互通的Service。通过DB-GPT和低代码技术,使AI应用的开发和控制更加高效。

image.png

DB-GPT通过以下方法解决AI应用开发中的三大核心难题:
image.png
1.系统交互:Pugin&Tools打通传统应用和AI APP的桥梁,实现SOA应用和AI应用元数据的互通,协议的互通和转化。

2.低代码开发:通过低代码AWEL进行逻辑以及Agent严格模式编排,使AI应用的开发迭代更加简单高效。通过整合现有的工具和API,AWEL语言能够高效管控并编排Agent的工作流程,同时提供了一系列强大的功能,如数据处理、RAG(检索增强生成)和数据库访问等。此外,我们提供了一系列系统级Agents,以加速应用构建过程。其中,DATA Agents能够理解自然语言指令,直接从数据湖或数据库中检索所需信息。GPT-Vis能够根据Agent、LLM或者应用的输出自动构建可视化组件,降低UI/可视化的研发成本。

3.数据处理:整个框架提供了RAG/LLM ETL工具、端到端的评估工具,帮助开发者更好的对数据进行编程和迭代。

image.png

Agents是AI原生应用构建的核心。DB-GPT的Agents可以提供服务并能与多种系统兼容,具备全面功能性,覆盖了从感知到决策到plugin,再到执行的全流程。

插件支持三种模式:

  • 严格模式:所有流程和关键点都是可控的,适合需要精确控制的应用。
  • 预编译研究:适合有明确目标和特定状态空间的应用,如蚂蚁正在应用的基础设施助理Kevin,可以通过COT或TOT面向决策树编排。
  • 大模型协作ReAct:在目标不明确或解释发散的场景中,利用大模型的协作能力,如财报或年报的调研。

对于AWEL语言来说,我们其实关注两点,一点是要支持严格模式,不光整个流程是可以通过严格模式来编排的,所有中间的通信协议也可以通过AWEL语言来编排。另外一点灵活应用,我们希望AWEL兼容大数据领域主流的框架(如airflow),能够让现在已有的ETL的流程比较简单的接入到AWEL的流程,方便实现从数据处理到RAG服务的端到端的流程。

image.png

此外,在构建原生应用的时候,我们提供了很多系统的Agent,这些Agent帮大家可以快速地构建系统应用。如GPT-Vis Agent,它是可以通过自然语言去动态适配应该输出什么样的格式。比如你输出的文本里有一个表格样式的数据,它可以帮你输出一个表格。如果有些数据更适合用饼图或者折线图,它都自动帮你做适配。同时它支持了非常多的可视化组件。

另外一个Agent是我们一直持续打磨的,叫Data Agent,Data Agent支持大部分的数据库、湖仓引擎等。Agent对于数据本身的理解是至关重要的,例如一个表格的意义、一个列的意义,甚至是一个常量的意义,大语言模型需要“数据元信息的ETL”来实现这一过程,后续我们也会考虑如何在DB-GPT的数据处理框架里和社区一起共建这部分的能力。

image.png

RAG & 数据引擎:

  • RAG作为AI原生框架里最核心的模块,可以作为算子,也可以作为Agent,方便构建AI应用或者Agent。为了实现更好的RAG效果,高质量数据处理的仍然是最先考虑的因素,DB-GPT支持基于文本Trunk、图谱的数据加工和处理,用户可以根据实际情况进行定制,在构建我们的RAG应用之前一个比较关键的事情是准备评测和验证的数据集。
  • 很多场景下单独用文本向量做召回准确度是不够的,现在比较流行的一种方式,是通过知识图谱的方式去做检索或者召回。我理解大模型对世界的理解不应该仅仅是一个strings,应该是一个具体的thing(事物)。embedding是不可控、不可知的,但图谱这种形式其实是比较可控,且可编辑的。因此,我们在DB-GPT上增加了整个基于图的RAG的能力,今天我们做了一个测试,在GraphRAG同样场景、同样准确性的情况下,会比微软的GraphRAG少50%的token

我们认为向量检索是后续提升RAG性能和效果的重要支柱。同时也为了能支持大规模图、文本、图片、音视频等存储上的向量索引,我们研发了VSAG向量索引库提供高性能的向量存储、检索、实时更新等能力,帮助计算和存储引擎实现vector as an index,同时也可以作为独立的组件支持RAG应用中的向量检索,无论是图片还是文本

VSAG向量库正式开源

我们高兴地宣布,VSAG向量库现在已经正式开源了。这是一个强大的工具,能够处理达到百亿级别的数据索引,特别是图片和音视频这类多媒体内容。VSAG不仅能够轻松处理大规模数据,通过融合多种分类算法以及基于线性分类器的剪枝技术,显著提高了检索效率和减少了计算量,性能提升最高达90%。后续会更加广泛的支持业界的RAG方案,如LLama Index、LangChain等等。

image.png

蚂蚁及社区应用实践

在蚂蚁集团,我们采用了两种智能辅助模式:Copilots和Agents。

image.png

Copilots作为一个编程辅助工具,能够给开发者提供智能的建议和风险评估,帮助编写更安全的代码,提升BI、分析、ETL等工作的效率。Agents有很多有意思的应用,例如它们能够主动分析并预测潜在的系统问题,提前防范系统故障。

我们还提供了一个用户友好的自助分析工具,用户可以用自然语言提出需求,比如询问如何快速到达某个地点,工具会自动生成详细的分析。

image.png

DB-GPT应用框架目前已在政企、出行、新零售、金融、互娱领域有广泛引用,典型的解决方案范式如数据助手、智能管家和AI/BI、Copilots等多种应用场景的创新。

应用案例广泛分布千行百业:通过DB-GPT构建的水务智能管家、水务行业通用知识库、水务企业专有知识库,方便普通用户通过QA问答获取水务行业的专业知识,并提供客户服务、管网运行、水厂生产等各种应用场景的数据查询和数据分析能力。同时,在出行领域,某大型机场集团通过DB-GPT搭建的人资管理助手、人资招聘助手、知识库问答等,通过自动化技术,覆盖从人力资源管理到报告生成的各个业务环节。另外,DB-GPT在京东、唯品会等头部互联网公司均有应用。

未来展望:构建全面的数据智能应用生态

image.png

今天,我们正式宣布发布 DB-GBT 0.6的版本,该版本支持AI原生应用的全生命周期管理,能够实现完整的GraphRAG能力支持,同时在Data Agent方面支持Graph,Text2GQL等能力。同时,我们基于GPT-Vis构建了应用生态仓库,任何开发者都可以在这个仓库里共享各自的应用。未来,社区还计划发布面向数据基础设施的新应用,以及面向ChatBI的全新应用。

image.png

星辰智能社区目标是构建全面的数据智能应用生态,覆盖从数据收集、ETL处理、RAG技术到原生应用框架的完整生命周期。我们始终与生态伙伴、社区伙伴紧密合作,从去年开始开源DB-GPT,到最近开源了RAG的核心向量索引库VSAG,以及孵化出更多像GPT-Vis的优秀工具。未来,我们还计划与更多产品、社区开放合作,让基于AI构建原生应用更简单更便捷。

自媒体发文-底部引导图.PNG

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2月前
|
人工智能
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【9月更文挑战第15天】近年来,人工智能领域取得了显著进展,但智能体系统的设计仍需大量人力与专业知识。为解决这一问题,UBC研究人员提出了“自动智能体系统设计(ADAS)”新方法,通过基于代码的元智能体实现智能体系统的自动化设计与优化。实验结果表明,ADAS设计的智能体在多个领域中表现优异,尤其在阅读理解和数学任务上取得了显著提升。尽管如此,ADAS仍面临安全性、可扩展性和效率等挑战,需进一步研究解决。论文详情见链接:https://arxiv.org/pdf/2408.08435。
49 4
|
3月前
|
机器学习/深度学习 人工智能 算法
"揭秘机器学习背后的魔法:函数的力量如何塑造智能预测的奇迹之旅"
【8月更文挑战第16天】机器学习是人工智能的关键分支,通过算法和统计模型使计算机能从数据中学习并预测。本文介绍核心函数的应用及实现:线性回归预测连续值;逻辑回归处理二分类问题;决策树依据简单规则分类或预测;支持向量机寻找最优边界分类。使用Python的`scikit-learn`库实现这些函数,帮助理解机器学习算法的工作原理及其应用场景。
63 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
🤖AI不只是科幻!揭秘它如何重塑你的职场日常,效率翻倍不是梦!
【8月更文挑战第1天】在当今科技飞速发展的时代,人工智能(AI)已融入职场,显著提升工作效率。通过自动化处理重复性任务,如数据录入和邮件管理,AI解放人力资源,让人们聚焦于创造性工作。AI还提供数据分析支持,帮助预测市场趋势和评估项目风险。智能客服系统实现24/7个性化服务,增强客户体验。此外,AI具备自我学习与优化能力,不断提升服务质量。AI正深刻改变职场面貌,引领我们走向更高效智能的未来。
30 0
|
3月前
|
机器学习/深度学习 人工智能 算法
🔍AI慧眼识珠:在海量数据中,它如何帮你精准捕捉职场机遇?
【8月更文挑战第1天】在信息爆炸的时代,AI技术以其强大的数据处理、模式识别及学习进化能力,助力职场人士从海量数据中精准捕捉机遇。AI在招聘中自动匹配人才,提高效率与公平性;通过分析多源数据预测市场趋势,挖掘商机;还能为个人提供职业规划与发展建议。示例代码展示了简化数据分析流程,说明AI如何处理数据并提取有价值信息,赋能职场决策。
40 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
90 0
|
6月前
|
机器学习/深度学习 数据采集 人工智能
人类生产力的解放?揭晓从大模型到AIGC的新魔法
本文从介绍大模型的概念延伸到大模型的革命意义。作者讲述了通过大模型的加持,让AIGC有了更多的可能性。
126985 6
|
5月前
|
人工智能 搜索推荐 机器人
AI发展已经一段时间了,当前社会身边哪些功能已经在运用了AI技术?未来AI技术还将有哪些地方会运用?
AI技术现已被广泛应用在智能家居(如自动化控制与安全)、个性化教育(定制化学习与辅助教学)、精准医疗(疾病诊断与药物研发)、智能服务(如智能客服)和金融服务(风险评估)等领域。未来,预计AI将在AI PC、人机协创、超级视野、机器人和零搜索等领域发挥更大作用,实现信息主动推送、无缝沟通和创新服务。随着技术进步,AI将持续影响并改变我们的生活。【6月更文挑战第2天】
122 0
|
6月前
|
机器学习/深度学习 人工智能 资源调度
人工智能平台PAI问题之多机多卡如何解决
人工智能平台PAI是指阿里云提供的机器学习平台服务,支持建模、训练和部署机器学习模型;本合集将介绍机器学习PAI的功能和操作流程,以及在使用过程中遇到的问题和解决方案。
366 0
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT时代,很想问问AI这些金融难题何解?
ChatGPT时代,很想问问AI这些金融难题何解?
262 1
|
机器学习/深度学习 人工智能 算法
人工智能出现“涌现”能力,该慌吗
人工智能大模型涌现的越来越多,很多人担心大模型出现了“智慧”、“思想”,那真实情况是这样吗?我们应该害怕吗?
人工智能出现“涌现”能力,该慌吗