随着 AIGC 的时代到来,以 GPT 为首的大型语言模型(Large Language Model,LLM)已经成为当今人工智能领域最热门的话题之一。这些强大的模型不仅在内容创意生成、语言翻译和代码辅助等任务中表现出色,还对数据库的发展带来了革命性的影响。
1 大语言模型:人机交互新时代
纵观人类文明的发展,语言一直是文明不断演变和进步的重要组成部分。从最早的口头传承到书面文字的出现,语言的传播和表达方式不断改进,使得知识和思想能够跨越时空传承。
科技的不断进步促使人类最伟大的发明之一 —— 计算机的诞生,随之产生了一门全新的语言:机器语言。机器语言是计算机能够理解和执行的指令集合。机器语言在计算机内部执行效率非常高,但对于人类来说,直接编写和阅读机器语言是一项繁琐和复杂的任务。为了简化与计算机的交互,人类又发明了汇编语言,它将机器语言指令用助记符表示,但仍需要较高的技术水平来编写和理解。
随着计算机技术进一步发展,人类又发明出高级编程语言,它们更加接近自然语言,使得编程变得简单和人性化。然而,高级编程语言受限于编译器和解释器,限制了其表达和理解复杂语句的能力。人们迫切希望与机器的交互变得更为简单,最理想的情况是让机器能够真正读懂自然语言。
在这种需求之下,人工智能出现了,从它诞生至今六十多年来,人们一直在努力研究自然语言处理(Natural Language Processing,NLP),致力于让机器更准确地理解自然语言并执行相应的命令,以实现与人类更智能的交互。
NLP:人机交互的纽带
(来源:easyai.tech)
2022 年 11 月 30 日,OpenAI 公司发布了 ChatGPT—— 基于 GPT 技术的大语言模型,它表现出了令人震惊的人工智能水平,并迅速成为了社会各界关注的焦点。在此之前,从未有过一款语言模型能像 ChatGPT 一样强大,它的发布标志着人机交互迈入了一个全新的时代。
2 大语言模型的强大赋能
ChatGPT 的横空出世引起了新一轮的 AI 狂潮,越来越多的科技公司为了赶上 ChatGPT 引发的时代浪潮,也纷纷开发出自己的大语言模型,而基于这些大模型产生的 AI 工具更是数不胜数,涵盖编程、数据库、音频、视频、语言翻译、对话聊天等众多领域。
大模型的应用领域
(来源:aigeneration.substack.com)
例如,在编程方面,Github Copilot 和 Mintlify 均是基于大模型的 AI 代码助手,前者可以根据开发人员的代码上下文和注释来生成合适的代码建议,帮助开发人员提高编程效率和质量,减少重复和繁琐的工作,轻松实现自己的想法。
AI 编程助手 Github Copilot
(来源:github.blog)
而后者则可以根据代码的语义和上下文生成代码注释,减轻开发人员编写注释的负担,提高代码的可读性和可维护性。
代码注释工具 Mintlify
(来源:g2.com)
此外,在其他领域中,大语言模型也产生了广泛的影响。在写作方面,大语言模型可用于文本生成、文段改写、智能审查等方面。在图像领域中,大语言模型可以实现图像生成、图像修复和图像背景移除等功能。
大语言模型不仅仅是一项技术,更是推动数字经济发展的重要助力。随着数字经济的蓬勃发展,数据一定程度上已超过土地、劳动、技术和资本,成为促进经济增长最有力的第五大生产要素。数字经济时代,每天都有海量数据的产生和处理,这背后,有一项技术尤为重要,它是数字经济的 “根技术”,是连接上层应用和底层基础资源的重要纽带,更被誉为基础软件 “皇冠上的明珠”,它就是数据库。
3 当大语言模型遇到数据库
数据库是现代信息系统的核心组成部分,用于存储、管理和检索大量结构化和非结构化数据。随着数据的爆炸性增长和用户对更高级查询和分析的需求,传统数据库系统面临着挑战。于是数据库开始与各种新兴技术进行融合与创新,如云计算、大数据、区块链等,产生了一系列功能更强大的新型数据库,为现代信息系统提供了更多选择和解决方案。
那么,大语言模型与数据库又能碰撞出怎样的火花?
3.1 大模型在数据库领域的应用
大语言模型可以在多个方面为数据库系统赋能,从而获得更好的执行表现和实现智能化。以下是一些大语言模型在数据库方面的应用维度:
NL2SQL(Natural Language to SQL)
传统的数据库交互需要使用结构化查询语言(SQL)或其他编程语言来进行,这对于非技术专业人士来说可能存在一定的学习和理解难度。NL2SQL 是指将自然语言(NL)转换为结构化查询语言(SQL)的技术。它的目标是使非技术专业人士能够使用自然语言与数据库进行交互,无需编写复杂的查询语句。
SQL Chat 就是一款基于大模型的对话式交互的 SQL 客户端工具。它提供了一个友好的用户界面,使用户能够通过自然语言对话的方式与数据库进行交互。
与传统的 GUI 模式相比,SQL Chat 更加注重用户友好性和自然性。它模拟了人与人之间的对话交流,用户可以使用类似自然语言的方式向它提问,而无需熟悉 SQL 查询语句的具体语法和结构。这种聊天式的交互方式使得非技术背景的用户也能够轻松地与数据库进行沟通和查询。
SQL Chat 将自然语言转换为 SQL 查询语句
通过提供更直观和自然的交互方式,SQL Chat 降低了使用 SQL 的门槛,并为非技术人员提供了更方便和友好的数据库操作体验。这种交互方式极大地简化了用户与数据库的交互过程,提高了数据库的可用性和易用性。
数据库性能优化
数据库性能优化一直是 DBA 和开发人员最头疼的问题之一,它是一项极为复杂的任务,涉及到多个方面,包括硬件、系统设计、数据库结构设计、SQL 查询优化、索引策略、缓存管理等。
其中,SQL 查询优化是开发者接触到最多的也是最常用的数据库性能优化手段。SQL 查询优化的目标是通过各种手段减少查询的响应时间,降低数据库负载,提高查询效率。
通常来说,一条 SQL 查询的执行速度与 SQL 语句本身的质量、数据库生成的执行计划、数据库缓存机制、数据表的大小以及查询条件的复杂程度等多方面因素相关,而数据库的执行计划与缓存机制由其本身的开发设计规范决定,并不能轻易去改变,因此,在同一个数据库环境,查询执行的效率就取决于 SQL 查询语句的质量,高质量的 SQL 语句和低质量的 SQL 语句的性能表现可谓是天壤之别。
然而,许多 SQL 程序员无法编写出高质量的 SQL 语句,即使是资深的 DBA 要想优化一条复杂的 SQL 查询也要花费大量的时间和精力。直到大语言模型的出现,SQL 调优不再是 DBA 的噩梦。
大语言模型可以分析给定的 SQL 查询语句,并提供查询重写和优化建议。它可以根据查询语句的结构和语义,推断出可能更高效的查询方式,并快速提供相应的优化建议,极大地减轻了开发人员和维护人员的负担。
利用 SQL Chat 优化查询语句
3.2 数据库推动大模型优化发展
大语言模型本质上是用大规模数据集进行预训练且参数数量巨大(通常在数十亿或更多)的基于神经网络架构的语言模型。算力、算法、数据作为人工智能的三大要素,同样是推动大模型发展的重要因素。
大语言模型的训练和推理需要大量的计算资源,算力的提升使得模型能够在更大的数据集上进行更深层次的训练,从而提高了其语言理解和生成能力;不断改进的算法可以优化模型的结构和训练方法,使其更有效地利用计算资源,加速收敛过程,提高训练效率;数据是大模型能力涌现关键中的关键,大语言模型完全由数据驱动,训练的过程需要大量的数据资源,训练数据的数量、质量、多样性对于训练大语言模型至关重要。
数据库作为存储和管理数据的核心工具,可以提供高效的数据存储和检索能力,为大语言模型的训练提供支持。通过将数据存储在数据库中,可以方便地进行批量读取和处理,提高数据的可用性和训练效率。
以当前最火的大语言模型 ChatGPT 为例,GPT-3 模型的参数就多达 1750 亿个,有数据显示,一次 GPT-3 模型训练需要的总算力消耗是 3640 PF-days,耗资约 1200 万美元;更令人震惊的是,根据业内人士收集到的信息,最新发布的 GPT-4 模型的参数量高达 1.76 万亿。参数量越大,模型越智能,但随之而来的开销也就越大。算力需求和参数量级紧密相关,参数量级也是当前衡量大模型训练质量的一个重要参考。换言之,算力是训练大模型的底层动力源泉,一个优秀的算力底座能极大地提高大模型的训练效果。ChatGPT 的成功得益于 Microsoft Azure 提供的强大的云计算服务。
训练大模型的算力需求迅猛增长
(来源:blogs.nvidia.com)
由此可见,对于想要拥有自己的大模型的企业来说,庞大的数据计算需求和高昂的计算成本是挡在面前的两座 “大山”,哪怕获得了复杂大模型的代码,也并不是谁都可以跑得起来的。因此,大语言模型的背后不仅仅是复杂算法的功劳,更是依赖了云计算服务的支撑,包括计算、存储、数据库等各方面的资源供给。
4 大模型 + 数据库:1+1>2
大语言模型与数据库的融合将推动人机交互和数据库应用的发展,二者的结合是一种双赢,通过借助大语言模型的语言理解和生成能力,数据库的使用和管理将变得更加便捷和智能化;数据库则提供了高质量的数据集与高效的数据管理来支持大型语言模型的训练和应用。数据库与大模型结合势必成为未来二者发展的一大趋势。
拓数派大模型数据计算系统(πDataComputing System,缩写 πDataCS)会在今年 10 月 24 日公司年度技术论坛上重磅发布,旨在成为 AI 的基础科技底座,强大的技术创新力与领先的产品力被业界寄予厚望,相信大模型数据计算系统将开启 AI 技术的新范式。