大型语言模型(LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。
转换器 LLM 能够进行无监督的训练,但更精确的解释是转换器可以执行自主学习。通过此过程,转换器可学会理解基本的语法、语言和知识。
与早期按顺序处理输入的循环神经网络(RNN)不同,转换器并行处理整个序列。这可让数据科学家使用 GPU 训练基于转换器的 LLM,从而大幅度缩短训练时间。
借助转换器神经网络架构,您可使用非常大规模的模型,其中通常具有数千亿个参数。这种大规模模型可以摄取通常来自互联网的大量数据,但也可以从包含 500 多亿个网页的 Common Crawl 和拥有约 5700 万个页面的 Wikipedia 等来源摄取数据。
为什么大型语言模型如此重要?
大型语言模型非常灵活。一个模型可以执行完全不同的任务,例如回答问题、总结文档、翻译语言和完成语句。LLM 有可能破坏内容创作以及人们使用搜索引擎和虚拟助手的方式。
尽管并不完美,但 LLM 表现出根据相对较少量的提示或输入做出预测的非凡能力。LLM可以根据采用人类语言的输入提示生成内容。
LLM 非常庞大。它们可以考虑数十亿个参数,并且有许多可能的用途。下面是一些示例:
- Open AI 的 GPT-3 模型有 1750 亿个参数。类似的产品 ChatGPT 可以从数据中识别模式并生成自然且可读的输出。虽然我们不知道 Claude 2 的规模,但该模型可以在每个提示中输入多达 10 万个令牌,这意味着它可以处理数百页的技术文档,甚至可以处理整本书。
- AI21 Labs 的 Jurassic-1 模型具有 1780 亿个参数和由 25 万单词部分组成的令牌词汇表以及类似的对话功能。
- Cohere 的 Command 模型具有类似的功能,并且可以使用 100 多种不同的语言开展工作。
- LightOn 的 Paradigm 提供根基模型,并且宣称该模型的功能超过 GPT-3。所有这些 LLM 都带有 API,可让开发人员打造独特的生成式人工智能应用程序。