Text-to-Text模型
问答任务常用。
ChatGPT
广受欢迎的ChatGPT由OpenAI开发,以对话的方式与用户进行互动。
用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出不正确的输入前提并拒绝不恰当的请求。
具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。
最初的模型是使用监督学习下的微调来训练的,然后由人类来提供对话,在对话中他们互相扮演用户和人工智能助理,然后由人修正模型返回的回复,并用正确的答案帮助模型改进。
将制作的数据集与InstructGPT的数据集混合在一起,转换为对话格式。
其他相关模型包括LaMDA和PEER
Text-to-Code模型
和text-to-text类似,只不过生成的是特殊类型的文本,即代码。
Codex
该模型由OpenAI开发,可以将文本翻译成代码。
Codex是一种通用的编程模型,基本上可以应用于任何编程任务。
人类在编程时的活动可以分为两部分:1)将一个问题分解成更简单的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。
其中第二部分是对程序员来说最浪费时间的部分,也是Codex最擅长的地方。
训练数据于2020年5月从GitHub上托管的公共软件库中进行收集,包含179GB的Python文件,并在GPT-3的基础上进行微调,其中已经包含了强大的自然语言表征。
相关模型还包括Alphacode
Text-to-Science模型
科研文字也是AI文本生成的目标之一,但要取得成果仍然有很长的路要走。
Galactica
该模型是由Meta AI和Papers with Code联合开发的,可用于自动组织科学文本的大型模型。
Galactica的主要优势在于即便进行多个episode的训练后,模型仍然不会过拟合,并且上游和下游的性能会随着token的重复使用而提高。
并且数据集的设计对该方法至关重要,因为所有的数据都是以通用的markdown格式处理的,从而能够混合不同来源的知识。
引文(citations)通过一个特定的token来处理,使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。
此外,该模型在仅有解码器的设置中使用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务,
Minerva
Minerva的主要目的就是解决决数学和科学问题,为此收集了大量的训练数据,并解决了定量推理问题,大规模模型开发问题,还采用了一流的推理技术。
Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题,即输入是需要包含计算和符号操作,而不用引入外部工具。
其他模型
还有一些模型不属于前面提到的类别。
AlphaTensor
由Deepmind公司开发,因其发现新算法的能力,在业界是一个完全革命性的模型。
在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要,从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。
该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解。
在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性。
GATO
该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用。
具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等。
在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性。
这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功。
目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模。
其他已发表的生成性人工智能模型包括生成human motion等。