生成式人工智能的完整过时指南(MEAP)(二)(3)https://developer.aliyun.com/article/1516929
第九章:建立和运行您自己的大型语言模型
本章内容包括
- 为什么您可能想要建立自己的大型语言模型
- 选择一个 LLM 模型作为您自定义配置的基础
- 如何(在非常一般的术语中)进行模型微调
建立(或修改)您自己的 LLM?但 OpenAI(及其投资者)花费数十亿美元优化和训练他们的 GPT。通过使用本地硬件进行自己的项目,是否有可能生成甚至远程竞争力的结果?
令人难以置信的是,在 LLM 技术的旋风演变到这一步时,对这个问题的答案是"是的"。由于 Meta 的开源 LLaMA 模型的存在,模型权重的未经授权泄漏(我将在接下来解释),以及许多卓越的公共贡献,现在有数百种高效而又资源友好的 LLM 可供任何人下载、选择性修改和运行。
话虽如此,如果操作到这种技术深度不是你的菜 - 尤其是如果你没有合适的硬件访问权限 - 那么可以跳过到下一章。
9.1 建立自己的模型的一些背景知识
在我们解释所有这些是如何工作之前,我们应该解决一个更大的问题:为什么有人想要建立自己的 LLM?以下是值得考虑的一些事项:
- 通过建立自己的 LLM,您可以更好地控制其架构、训练数据和微调。这使您能够将模型专门定制到您的需求和领域。您可以为特定任务、行业或应用程序进行优化,这可能会带来更好的性能和更准确的结果。
- 一些组织可能有严格的数据隐私要求或无法与第三方服务共享的敏感信息。事实上,三星最近禁止其员工使用 GPT 或 Bard,因为他们担心他们的互动可能会意外泄漏专有公司信息。建立自己的 LLM 可以确保所有数据和处理都留在您的组织内部,减少隐私和安全方面的担忧。
- 如果您的应用需要专业知识或在一个小众领域操作,建立自己的 LLM 可以让您将特定的数据源和领域专业知识纳入到训练过程中。这可以增强模型的理解能力,并生成更符合您特定领域需求的响应。
- 像 GPT 这样的预训练模型被设计为通用型,并且在各种领域都能工作得相当好。然而,对于特定任务,建立一个定制的 LLM 可能会导致性能和效率的提升。您可以优化架构、训练方法和配置设置,以在特定用例上获得更好的结果。
- 构建自己的 LLM 可以让你拥有对模型的知识产权的所有权和控制权。你可以修改、扩展和分发模型以满足你的需求,而不受使用现有模型所带来的限制或许可协议的约束。
在 Meta 泄露事件后,社区中许多聪明的人们将注意力集中在构建可以用更少硬件完成更多任务的 LLM 变体上。例如,量化是一种将模型压缩以便在没有图形处理器单元(GPU)的计算机上运行的方法。超高效的微调技术,包括一种称为 Low-Rank Adaptation (LoRA)的技术,使得模型微调所需的资源和时间大大减少。
所有这些内容都在一份 p.html 上被广泛阅读的内部 Google 文档中提到,不知何故,这份文档进入了公开的互联网。未知作者强烈指出,包括 OpenAI、Meta 和 Google 在内的大公司在人工智能领域已经完全失去了竞争优势。从现在开始,技术上的重大进展将发生在野外,远离大公司或政府的控制之外。
那么为什么你可能想要拥有自己的 LLM 呢?因为此时,你可以享受全新的定制和优化水平。它会如何工作呢?嗯,因为我实在想不到你有任何理由从零开始启动自己的 LLM 项目,所以我假设你对现有平台感兴趣。你会面临三个选择:一个模型,一组权重,以及你是否还想对所选择的模型进行微调。
构建一个 LLM 对不同的人可能意味着不同的事情,这是因为我们所谓的"LLMs"由多个组成部分组成。从技术上讲,有输入编码、神经网络架构、嵌入层、隐藏层、注意力机制、训练数据、解码算法以及大量的训练数据。
老实说,我真的不太明白大部分这些是什么,以及它们应该做什么。就我们现在的目的而言,仅仅将定义编码和一般架构的代码视为模型就足够了。至于基于 Transformer 的语言模型(LLMs),至少对于像 GPT 那样的 LLMs,我们可以将"注意力机制"视为定义权重的原因。顺便说一句,注意力机制能够以更复杂的方式对上下文和单词或令牌之间的关系进行建模。
权重到底是什么?在神经网络中,每个神经元之间的连接都被赋予一个权重,表示该连接的强度或重要性。对于一个模型来说,这些权重是可学习的参数,在训练过程中进行调整。在训练过程中,LLM 暴露于大量的训练数据,并学会预测下一个单词或生成连贯的文本。
权重确定了信息如何通过网络流动以及它们如何影响 LLM 的最终预测或输出。通过调整权重,模型可以学习将更高的重要性赋予某些输入特征或模式,并根据其接触到的训练数据进行更准确的预测。没有权重,LLM 模型几乎没有用处。
选择基本 LLM 模型进行配置
一个很好的开始你的研究的地方是 Hugging Face 开放 LLM 排行榜,其中列出了许多免费提供的基于变压器的 LLM 的评估性能。您可以切换每个评估列,以通过特定功能缩小搜索范围。这些功能包括“ARC” - A12 推理挑战 - 它测试模型如何回答有关高中科学的问题。点击该页面上的“关于”选项卡将为您提供所有评估标准的优秀描述。
当您在列表中浏览替代品时,您会注意到有几个关键的 LLM 系列,例如 Meta 的 LLaMA 和 Together Computer 的 RedPajama。还有一些从其他模型派生出来的模型。例如,OpenLLaMA 是一个“复制 Meta AI 的 LLaMA 7B”模型,该模型在“RedPajama 数据集”上进行了训练。
您会注意到模型名称通常包括其参数大小(以十亿为单位):7B、13B、33B、65B 等等。一般来说,用于构建模型的参数越多,您就需要更好的硬件来运行它。点击模型的单独文档页面通常会向您显示模型训练所使用的标记数量。一个较大的模型可能会包含超过一万亿个标记。
一旦您选择了一个模型,您通常会转到其 GitHub 页面,那里通常会有使用说明以及如何克隆或下载模型本身的说明。其中一个很好的例子是 llama.cpp LLaMA 推理。但是即使您已经在您的机器上获得了软件,通常您仍然需要单独下载一组权重。
他们为什么不直接将权重与他们的模型捆绑在一起呢?首先,您可能需要为您的特定任务定制一种权重组合。但还有另一件事情正在进行。有些权重集只有在您的请求获得批准后才能获得。而且,许多免费提供的集合来自……我们应该说……可疑的来源。在这种情况下,将它们都放在一个地方提供可能实际上并不实际。
话虽如此,Alpaca-LoRA 和 RedPajama-INCITE-3B 模型附带了可以在构建过程中为您获取权重集的脚本。我们将在接下来的几分钟内演示一个 RedPyjama 构建示例。
在选择 LLM 时的最后一个考虑因素是,你需要确保模型能够在你拥有的硬件上运行。由于它们严重依赖计算处理能力,大多数模型都需要图形处理单元(GPUs),有时还需要大量的专用视频内存。如果你计划在任务中使用常规的消费者笔记本电脑或台式机,请确保你使用的是仅 CPU 模型。另外,你也可以随时向云提供商(例如亚马逊网络服务)租用所需的所有 GPU 计算能力。
9.3 配置和构建你的模型
如果你尝试以下说明,你可能会发现在你的 LLM 构建时一切都进行得很顺利,但突然间一切都停滞了下来。"但是"你喊道,“我完美地遵循了模型的指令。”
你确实做到了。实际上,太完美了。你知道,这些说明通常需要进行一点定制才能起作用。最常见的更改涉及到这个命令参数:
/path/to/downloaded/llama/weights
那个/path/to/downloaded/...
应该被更新以反映存储着你所下载的.bin
预训练权重文件的实际文件系统位置。可能看起来像这样:
~/redpajama.cpp/examples/redpajama/models/pythia/
这个文档页面很好地指导我们如何下载和启动他们的模型。你可以从克隆基本存档开始:
git clone https://github.com/togethercomputer/redpajama.cpp.git cd redpajama.cpp
你将运行make
来,在这种情况下,构建一个压缩的(quantized)聊天环境所必需的。
make redpajama-chat quantize-gptneox
这个脚本实际上会下载并构建适当的一组量化(quantized)权重:
bash \ ./examples/redpajama/scripts/install-RedPajama-INCITE-Chat-3B-v1.sh
最后,你可以使用redpajama-chat
命令启动聊天,该命令以ggml-RedPajama-INCITE-Chat-3B-v1-f16.bin
权重文件为目标,并传递一个长长的配置参数列表(其中任何一个都可以根据你的需求进行更改)。
./redpajama-chat -m ./examples/redpajama/models/pythia/\ ggml-RedPajama-INCITE-Chat-3B-v1-f16.bin \ -c 2048 \ -b 128 \ -n 1 \ -t 8 \ --instruct \ --color \ --top_k 30 \ --top_p 0.95 \ --temp 0.8 \ --repeat_last_n 3 \ --repeat_penalty 1.1 \ --seed 0
Git 存档附带了 Python 脚本,帮助你进一步定制你的体验。例如,你可以通过向./examples/redpajama/scripts/quantize-gptneox.py
脚本传递诸如--quantize-output-type q4_1
之类的参数,来尝试各种量化方法。
9.4 调整你的模型
调整需要比我们刚刚看到的配置更多的工作。如果你有 GPU,那么你可以考虑自己调整下载的模型。作为一个基准,一张流行的高端 GPU 卡,对于许多 LLM 构建操作来说是有效的,可能包括曾经主要用于游戏电脑的 Nvidia 3090。
就我所知(从未拥有过自己的)3090 将配备 24GB 的图形内存。显然,这对于使用我们之前提到的高效的 LoRA 方法进行调整足够了。否则,你可能需要将多个 Nvidia 3090 链接在一起。这不会便宜(3090 似乎每张要价约 1400 美元),但它与 OpenAI、Meta 和 Google 一直在做的事情完全不同。
微调和简单配置模型(我们刚刚看到的方式)之间的一个区别是,微调涉及重新在通常包含数千亿令牌(每个令牌大致相当于一个单词)的数据集上训练您的模型。正是这些大型数据集,有望使模型捕捉到通用的语言模式和知识。真正的定制工作发生在这里,你可以自由使用自己的数据。
尽管说了这么多,我不打算在实践层面向你展示任何工作原理。我不仅缺乏使其工作的硬件,而且我怀疑你也是如此。但至少从一般的角度来思考一下是值得的。
9.4.1 创建数据集
例如,要构建一个专门供律师或医疗专业人士使用的模型,你需要一个包含大量法律或医疗内容的数据集。但考虑到训练有效模型所需的内容量之大,你可以理解为什么你需要一些更强大的硬件。
构建您的数据集,然后执行微调构建已经超出了本书的范围。更不用说,当你阅读这些文字时,它们的执行方式几乎肯定已经发生了不可识别的变化。所以如果在你的未来有微调事件,很遗憾,这里不是你找到答案的地方。
9.4.2 训练您的模型
因为它们在 LLMs 的训练和微调的背景下经常被使用,我应该简要描述一下零样本和少样本方法来进行模型训练。零样本和少样本训练通常会在模型暴露于其大型训练数据集的预训练阶段之后进行。
零样本学习涉及使用语言模型执行其没有接受任何特定训练的任务。相反,它利用其对语言的一般理解来根据提示或指令完成任务。关键的想法是模型可以从其预先训练的知识中概括,并将其适应于新任务。通过提供详细的提示,指定所需的任务和格式,模型可以生成相关的输出。
例如,即使模型尚未针对翻译任务进行特定的微调,你也可以使用零样本提示指导模型,比如,“将以下英语句子翻译成法语:Hello, how are you?”。然后,该模型将基于其对语言和提示的理解生成翻译输出。
少样本学习涉及提供少量特定任务的训练示例或演示给语言模型,以便它可以快速适应新任务。虽然零样本学习不涉及任何特定任务的训练,但少样本学习提供了少量示例来帮助模型更好地理解任务。通过在这些少量示例上对模型进行条件设置,它可以学会更准确地执行所需的任务。
例如,如果您想让模型总结新闻文章,您可能会提供一些文章摘要的例子以及文章本身。然后,模型可以使用这些信息为其他文章生成摘要。
零样本学习和少样本学习方法都允许语言模型在不需要进行广泛的微调或在大型数据集上进行训练的情况下执行各种任务。它们展示了这些模型惊人的泛化能力,使它们能够将其语言理解应用于各种任务。
9.5 摘要
- 定制大型语言模型可以解决那些通用模型不合适的问题。
- 配置您自己的模型需要从一个 base LLM 开始。
- 对新模型进行良好的调整需要访问您自己的数据集和重要的硬件资源。
第十章:我是如何学会不再担心并爱上这种混乱的
本章介绍了
- 持续的生成式 AI 发展对你的下一份工作和你的下一个创业公司意味着什么
- 什么是人工通用智能,它的未来在哪里?
- AI 应该受到监管吗?
- 接下来是什么?
我对改变并不陌生。事实上,我经常面对各种颠覆,勇敢地面对它们。虽然“勇敢地面对”也可以被解释为“故意忽视挑战并希望它们会消失”。
我“勇敢面对”的变化大多在数月或数年内逐渐发展。例如,在我写作这本书的同时,亚马逊网络服务(Amazon Web Services)的仪表板界面的更新频率比我所愿意的要高。但它们的发生频率很少,以至于我可以在我的书籍和课程中主要通过弱化仪表板并重点关注命令行操作来解释它们。
相比之下,我所钟爱的 Linux 的改变发生在我所称之为“政府速度”(the speed of government)的情况下-这意味着它们几乎根本不会发生。耶!Linux。
生成式 AI…嗯,那是另一回事了。就在我写这本书的时候,我见证了产品和服务转变功能,禁用了代码模式,更新了访问策略,放弃了斗争,而且如果我记得正确,还从互联网上完全消失了。其中一些事情发生在几天内!
但你已经知道这一切了。标题上就写着。
因此,在所有这些混乱的背景下,我认为我们将以一些相当不可靠的预测来结束这个已经过时和徒劳的努力。我们将从对即将发生的变化做一些总结开始。
10.1 世界工人可以合理期望什么
这不全是坏消息。而且花更多时间思考这些大趋势实际上可以帮助刺激你的想象力。你可能会发现一个意想不到 - 也有可能是有利可图的 - 的利基。
AI 驱动的自动化可能会导致某些工作岗位的消失,因为机器能够更高效地执行任务。这可能需要工人调整他们的技能或转向新的角色和行业。或者只是学会享受突然多出来的空闲时间。另一方面,正如我们在本书中引用的那样,AI 不会让人们失业。但是将 AI 纳入运营的人将让那些不将 AI 纳入运营的人失业。
LLM 可以通过自动化重复或耗时的任务提高各个行业的效率和生产力,使人们能够专注于更复杂和创造性的事务。换句话说,在你的工作流程中加入 AI 工具可以让你在你所做的任何事情上更快、更好。记住这个永恒的等式:“更快+更好=竞争力”。
LLMs 可以分析大量数据,生成个性化推荐,如个性化购物体验、内容策划和定向广告。这可以提高客户满意度和参与度。如果您销售任何产品,让您的客户更加满意可能会产生重大影响。
AI 可以促进诊断、药物发现和治疗规划的改善。LLMs 可以通过分析患者数据、建议治疗方案和跟踪最新的医学研究来帮助医疗保健专业人员。这样想吧:也许你不是大型制药公司,但有效使用 AI 工具可能会让你获得提高生产力所需的推动力,以使这些庞大的恐龙沦为尘土。
LLMs 可以通过提供个性化学习体验、智能辅导和获取大量教育资源来彻底改变教育。基于 AI 的工具可以帮助教育工作者评估学生的进步,并相应调整教学方法。我猜它们也可能使教师变得不再重要。我很高兴我不以教授为生。
由于基于 AI 的聊天机器人和虚拟助手可以提供全天候服务,您可以提供(或利用)更短的响应时间和增强的用户体验。
基于 AI 的系统,包括 LLMs,可以在金融、物流和战略规划等行业的决策过程中提供帮助。它们可以分析庞大的数据集,识别模式,并提供支持决策的见解。但是,如果您读到了本书的这一部分,如果您还没有深入研究这类工作,我会感到很惊讶。
10.2 您的下一个商业创业将会是什么样子
未来的 AI 进步可能会对商业创业环境产生特别重大的影响,提供机遇和挑战。换句话说,新的创业公司可能比其“传统”前辈更具敏捷性、快速行动和更便宜。这是因为他们可能能够大规模地自动化曾经需要数百甚至数千名工程师和其他专业人员以及维持他们快乐所需的基础设施。与其把时间花在寻找数十亿美元的种子资金来从原型扩展到成熟应用上,一个以人工智能驱动的企业的创始人们可能会无限期地继续下去,只需要几十名员工和一个摇摇欲坠的乒乓球桌。
那么,AI 有什么特点使得所有这些变得可能?
显然,这始于自动化和效率的提高。AI 技术可以自动化各种任务,使创业公司能够简化运营、降低成本并增强效率。想想利用 AI 来完成客户支持聊天机器人、社交媒体管理,或者,如果您想整合一些严肃的技术,为您的库存或制造业控制提供智能质量控制机制。
对于资源受限的初创企业来说,这尤其有益,使它们能够与规模更大的已建立的公司竞争。但是没有理由不能让这种节约成为您企业运营的永久特征。
将增强的决策制定和分析工具交给创始人自己可以绕过昂贵的业务部门。毕竟,每个企业都需要数据分析和预测建模来识别市场趋势并优化战略。但正如我们所见,将这些过程委托给几个 GPU 而不是一屋子的 MBA 和 CFA 会便宜得多。随着对人工智能工具和平台的访问增加并简化,这种内部分析和业务决策工作变得更加合理。
人工智能的进步还可以开启新的商业机会并打破传统行业。拥有创新的人工智能驱动解决方案的初创企业更有可能创建全新的市场,挑战现有玩家的颠覆性商业模式,或者仅仅在某一特定业务周期活动中变得更加优秀。例如,人工智能可以个性化客户体验,提升参与度,并提供定制建议,从而实现更优越的客户服务或营销运营。
当然,人工智能的变革将影响初创企业所需的技能集。创始人和员工可能需要在人工智能相关学科上发展专业知识,以有效利用人工智能技术的潜力并保持竞争力。随着人工智能的普及,初创企业的竞争环境可能变得越来越激烈(毕竟,其他人都将拥有您正在使用的相同工具)。初创企业将需要更加努力地利用人工智能以独特且有价值的方式来区分自己,在拥挤的市场中脱颖而出。
利用人工智能的初创企业必须优先考虑伦理问题,以建立与客户和利益相关者的信任。解决与数据隐私、偏见、透明度和问责制相关的问题对于长期成功至关重要。这意味着您和您的人工智能需要养成相互监督的习惯。您将审核您从人工智能获取的内容,而您的人工智能将审核您。
10.3 通用人工智能:发展方向
AGI 代表通用人工智能。它指的是高度自主的系统或机器,具有理解、学习和执行智力任务的能力,水平等同或超过人类在各种领域的能力。当我写下这些话时,我们似乎尚未达到通用人工智能。尽管随着我们过渡到下一段,这种情况可能会发生变化。
与专注于特定任务或领域的狭义人工智能相比,通用人工智能旨在复制人类的一般认知能力。通用人工智能将表现出推理、问题解决、学习和适应能力,使其能够跨多个领域执行任务,而无需显式编程或人类干预。(更新:通用人工智能似乎仍在等待中。)
AGI 的开发和实现将给社会带来深刻的变革。 AGI 可以自动化各行各业的广泛任务,从根本上改变科学研究,推动问题解决,扩大个人能力和容量,并改变教育、医疗保健、交通运输和治理。它将影响我们与技术的所有互动,并塑造社会的整体结构。
正如许多年前我的高中学生们经常问我:“那是好事还是坏事?”
我通常会回答:“就像所有事情一样,它是复杂的。”
在“复杂且令人担忧”的一面,以下是一些令人担忧的可能性:
- 如果通用人工智能(AGI)超越了整体人类能力,人们担心其可能迅速获取并巩固超出人类控制范围的权力。确保对齐 AGI 目标与人类价值观的健壮机制并保持控制变得至关重要,以防止意外后果的发生。
- AGI 可能会以与人类意图不同的方式解释其目标,或者未能准确理解人类价值观。这种不对齐可能导致 AGI 追求对人类有害或不符合我们福祉的目标。
- 即使出于良好的意图,AGI 系统也可能因其决策过程的复杂性而产生意外后果。这些后果可能是有害的,难以预测或纠正,从而导致对社会的未预见风险。
- 如果 AGI 在没有足够预防措施的情况下开发和部署,可能会导致竞争性竞赛,没有足够时间进行安全措施和健壮测试。这种匆忙可能会增加风险的可能性,并且不足以理解 AGI 的影响。
- AGI 技术落入错误的手中或具有恶意意图可能带来重大风险,包括网络攻击、武器化、监视和在前所未有的规模上操纵信息。
- AGI 的广泛采用可能会扰乱就业市场和经济体系,可能导致失业率上升和不平等加剧。需要管理与 AGI 部署相关的利益和风险,以减轻潜在的社会和经济差距。
- 确定人类价值观并将其编码到 AGI 系统中存在挑战。不同的文化、伦理框架和个人偏好可能导致分歧,并在确定 AGI 的普遍可接受价值体系方面出现困难。
- 社会可能会严重依赖 AGI 系统来执行关键任务、基础设施管理和决策制定。这种依赖性会带来漏洞,因为故障、停电或恶意攻击可能对基本服务产生严重后果。
应对这些风险需要跨学科研究、合作,并制定安全措施、规范和框架,以确保 AGI 的负责任开发和部署。优先考虑透明度、强大的测试、价值观的一致性和持续监测,以减轻潜在的危害,并最大化 AGI 的利益。
或者,换句话说,要有效地控制计算机,我们需要社会范围内的卓越合作和政府及行业专家的智能指导。
所以综合考虑,我在这场竞争中投了计算机一票。
10.4 AI 应该受到规范吗?
鉴于 AI 系统固有的潜在危险,特别是具有接入互联网和现实世界的系统,允许任何人在任何地方做任何事情是否有意义?
我个人认为这并不重要。"等一下,"我听到你抗议道。“人类生存的关键在于此,而你却认为这并不重要?” 是的。但这不是因为我不关心人类的福祉。我的一些好朋友都是人类。相反,这是因为我认为监管是不可能的。
这是因为我们在第九章讨论过的一些事情,“构建和运行自己的大型语言模型”。Meta 的开源 LLaMA 模型的权重一泄露,互联网就开始充斥着独立的 LLMs,可供免费下载。它们可以通过所有通常的渠道获取,包括 GitHub。但它们也可以在像分布式星际文件系统(IPFS)这样的非正式网络架构中找到。与早期互联网一样,像 IPFS 这样的网络 - 设计上是去中心化的 - 几乎是不可能受控制的。
无论多少政府签署了旨在限制新 LLM 技术无限发展的措施,LLM 技术将继续无限发展。因为没有人可以阻止独立思考的开发者,当他们完成工作所需的只是性能适中的笔记本电脑和工作站时。无论是好是坏,历史上都有很多失败的(或部分失败的)试图禁止分布式网络上的活动的尝试,包括文件共享、加密、互联网审查以及分发用于 3D 打印枪支的模板文件。
10.5 未来之路
现在,我毫不关心我的个人安全,与任何常识的影子直接冲突,我将为未来几年生成式 AI 进展做出无畏的预测。不客气。
10.5.1 量子计算
量子计算有望显著提高计算能力,并实现更复杂的计算。量子算法和架构可能推进自然语言处理能力,并增强 LLMs 的训练和优化过程,潜在地导致更快、更高效的语言模型。
量子计算是利用量子力学原理进行计算的新兴领域。与依赖于表示 0 和 1 的位的经典计算机不同,量子计算机使用量子比特或 qubit,由于一种叫做超位置的属性,可以同时存在于多种状态。
超位置允许量子比特处于 0 和 1 状态的组合中,使量子计算机能够同时处理和操作大量可能性。这种并行性提供了解决某些计算问题比经典计算机快得多的潜力。
量子计算中另一个重要的属性是纠缠。当量子比特被纠缠时,一个比特的状态与另一个比特的状态不可避免地联系在一起,无论它们之间的物理距离如何。这种相关性允许纠缠的量子比特之间的瞬时通信,使量子计算机能够执行涉及多个变量之间复杂关系的计算。
量子计算有潜力革新各个领域,包括密码学、优化、材料科学和药物发现。它可以解决目前经典计算机无法处理的问题,如快速分解大数、模拟量子系统和以指数加速解决优化问题。
10.5.2 神经形态计算
神经形态计算旨在利用神经形态架构和专用硬件,可能让 LLMs 和生成式 AI 系统实现更高效率、更低能耗和更具生物灵感的学习过程,从而实现更智能和适应性更强的模型。
神经形态计算是一个研究领域,旨在创建受人类大脑结构和功能启发的计算系统。它利用神经科学的原理来开发硬件和软件架构,模仿生物神经网络的行为。
传统计算依赖冯·诺依曼体系结构,其中处理和存储是分开的实体。相比之下,神经形态计算旨在集成处理和存储,实现类似于大脑神经连接的并行和分布式计算。
神经形态系统利用专用硬件,如神经形态芯片或尖峰神经网络,模拟神经元和突触的行为。这些系统以与传统二进制计算基本不同的方式处理信息,使用活动的尖峰或突发来表示和处理数据。
通过模拟大脑的神经结构和功能,神经形态计算提供了几个潜在的优势。它可以实现低功耗和能源高效的计算,因为设计针对大脑的节能机制进行了优化。它还提供了实时处理感知数据的能力,使其适用于需要快速和持续处理传感器输入的应用。
10.5.3 高级硬件加速
未来硬件的进步,如专用的 AI 芯片和处理器,可以显著提升 LLM 的性能和训练速度。专门设计用于语言处理和生成任务的专用硬件可以为更复杂和高效的 LLM 带来新的可能性。AI 驱动的变革已经将图形处理单元制造商 Nvidia 提升到了意想不到的行业领导地位。
高级硬件加速是指利用专门的硬件组件或架构来增强特定计算任务的性能。在 AI 和计算的背景下,它涉及设计用于加速人工智能工作负载(如深度学习和神经网络)的硬件。
传统的中央处理单元(CPU)通常在有效处理 AI 算法的大规模计算需求方面受到限制。高级硬件加速技术通过利用专门的硬件(如图形处理单元(GPU)、现场可编程门阵列(FPGA)或专用集成电路(ASIC))来解决这一限制。
这些硬件加速器旨在执行并行计算并利用 AI 算法中固有的并行性,从而实现显著的速度提升和能源效率增益。它们可以高效地执行矩阵计算、神经网络操作和其他在 AI 工作负载中普遍存在的计算密集型任务。
高级硬件加速的使用可以实现更快的训练和推理时间,使得实时或准实时的人工智能应用成为可能。它还可以减少与 AI 计算相关的功耗和运营成本,使得在更大规模上部署 AI 系统更加可行。
10.5.4 强化学习和元学习
对于 LLM 的训练和微调过程,进一步发展强化学习技术和元学习方法可能会带来改进。这些进步可以增强 LLM 从有限数据中学习、推广到新任务并适应动态环境的能力。
强化学习是一种机器学习方法,其中代理学习在环境中做出顺序决策以最大化奖励信号。代理与环境进行交互,采取行动并以奖励或惩罚的形式接收反馈。通过从这些经验中学习,代理开发出指导其决策过程的策略。强化学习涉及探索不同的行动,评估其后果,并根据收到的反馈调整策略以改善性能。它在解决复杂问题方面取得了成功,如游戏玩法、机器人技术和自主系统。
元学习,也称为“学会学习”,是机器学习的一个子领域,专注于开发能够使模型有效学习如何学习的算法和方法。它涉及设计能够从先前的学习经验中适应和泛化到新任务或领域的模型或系统。元学习算法旨在获取关于学习过程本身的知识,使代理能够快速适应并在少量训练数据的情况下在未见任务上表现良好。通过利用过去学习经验的见解,元学习实现了新技能的高效获取,并促进了对新问题领域的快速适应。
生成式人工智能的完整过时指南(MEAP)(二)(5)https://developer.aliyun.com/article/1516933