神奇LLM引擎上线:帮你把GPT-3直接调成ChatGPT

简介: 神奇LLM引擎上线:帮你把GPT-3直接调成ChatGPT


OpenAI 花几个月完成的事,现在用它直接给你自动化了。

最近一段时间,不论大公司还是开发者都在造大语言模型(LLM),但有人认为,大模型应用的速度有点落后。


为了构建能实际使用的 AI 工具,我们需要基于基础模型构建定制化模型,中间的过程包含微调(Fine-tuning),这是一个复杂且耗时的过程,对于很多人来说,简便易行的调试是不存在的。


这个问题现在或许得到了解决:本周六,来自斯坦福的一群开发者发布了 Lamini,号称可以为每个开发人员提供从 GPT-3 带到 ChatGPT 的超能力。



链接:https://lamini.ai/


Lamini 是一个 LLM 引擎,供开发人员使用很多公司、机构的基础模型快速构建定制化模型:你可以用 OpenAI、EleutherAI、Cerebras、Databricks、HuggingFace、Meta 等公司的技术做自己的,只要他们开源就可以。



将基础模型构建成强大的语言模型是一个极具挑战性的过程,需要花费大量的时间和成本。首先,在特定数据集上进行微调的迭代周期以月为单位,需要花费大量时间找出微调模型失败的原因。虽然使用 prompt 调整迭代以秒计时,但微调之后的模型性能只能稳定几个小时,而且能融入 prompt 的数据量非常有限。


OpenAI 的机器学习团队花了几个月的时间在其基本模型 GPT-3 上进行微调,并使用 RLHF(基于人类反馈的强化学习方法)才构建出强大的 ChatGPT。这个过程需要消耗大量的计算资源,还要求团队具备专业的技术知识。


在 ChatGPT 开放 API 之后,很多公司都尝试使用 OpenAI 提供的微调 API,但结果却不尽如人意,一些基础模型经过微调之后,性能变得更差,无法投入使用。还有一些公司表示不知道如何充分利用数据。


现在,名为「Lamini」的新工具解决了这些问题。Lamini 将微调封装成一种服务,使开发人员可以轻松将 GPT-3 微调成 ChatGPT。



简单来说,Lamini 提供了一种托管化的数据生成器,只需执行 Lamini 库中的几行代码,用户就能训练自己的大型语言模型(LLM)及其权重,而无需使用任何 GPU。


速成强大的 LLM


Lamini 是一个 LLM 引擎,它允许开发人员只使用 Lamini 库中的几行代码,就能在大型数据集上训练出高性能的 LLM。Lamini 库涵盖对机器学习模型的多种优化,包括简单的优化(例如消除模型「幻觉」)和更具挑战性的优化(例如 RLHF)。



那么,Lamini 库在构建 ChatGPT 般强大的 LLM 时能起到哪些作用?按照 OpenAI 构建 ChatGPT 的流程,Lamini 的作用具体包括以下几点:



1. 对 ChatGPT 或其他模型进行 prompt 调整。Lamini 库的 API 提供快速调优功能,只需一行代码即可在 OpenAI 的模型和其他开源模型之间切换。Lamini 库还提供了优化之后的正确 prompt,以便于用户根据模型设置不同格式的 prompt。


2. 构建一个输入输出对的大型数据集。该数据集将让模型理解它应如何响应其输入。使用 Lamini 引擎,用户可以仅用几行代码就快速从 100 个数据点生成 50k 数据点,而无需启动任何 GPU。Lamini 也提供了一个 50k 的开源数据集。


3. 在数据集上微调基础模型。Lamini 的研究团队在其 50k 的开源数据集上微调出一个 LLM,后续他们将发布执行此操作的功能和代码。


4. 在经过微调的模型上运行 RLHF。Lamini 库让用户不再需要大型 ML 和人工标记团队来运行 RLHF。


5. 方便用户将模型部署到云端。


数据生成器


‍ChatGPT 风靡全球是因为它可以遵循用户的指令生成高质量内容,但其基础模型 GPT-3 却不总是能做到这一点。例如,向 GPT-3 提出一个问题,它可能会生成另一个问题而不是回答它。

ChatGPT 能做到这一点的原因是它使用了大量的「指令 - 执行」数据。但对于普通的开发人员来说,这些数据是难以获得的。


基于此,Lamini 提供了一个托管数据生成器,只需几行代码即可将 100 个样本变成超过 50k 个样本,而不需要启动任何 GPU,并且生成的数据是商业可用的。用户可以自定义最初的 100 多条指令,以便生成的 5 万条符合要求的指令,最终得到一个大型指令遵循数据集。


Lamini 的数据生成器是一个 LLM pipeline,其灵感来自斯坦福的开源模型 Alpaca。这个生成 pipeline 使用 Lamini 库来定义和调用 LLM,以生成不同但相似的指令 - 响应对。



托管数据生成器生成的数据质量参差不齐,有的数据很好,有的则很差。因此,Lamini 下一步将生成的数据过滤为高质量数据,这个过程只需要运行一个如下的简单脚本。


import jsonlines
def main():
    dataset = list(load_dataset("data/lamini_dataset.jsonl"))
    questions = set()
    filtered_dataset = []
    for example in dataset:
        if example["question"] in questions:
            continue
        filtered_dataset.append(example)
        questions.add(example["question"])
    print(f"Removed {len(dataset) - len(filtered_dataset)} duplicate questions")
    save_dataset("data/filtered_lamini_dataset.jsonl", filtered_dataset)
def load_dataset(path):
    with open(path) as dataset_file:
        reader = jsonlines.Reader(dataset_file)
        for example in reader:
            yield example
def save_dataset(path, dataset):
    with open(path, "w") as dataset_file:
        writer = jsonlines.Writer(dataset_file)
        for example in dataset:
            writer.write(example)
main()


然后,Lamini 通过在过滤后的高质量数据集上训练基础模型为用户创建自定义 LLM。


总的来说,Lamini 把微调模型封装成一种服务,让开发者们只用非常简单的步骤就能把基础模型微调成性能良好的垂类模型,这大幅降低了构建 LLM 的技术门槛。


在社交网络上,Lamini 获得了不少人的欢迎。



不知在此类工具出现后,调大模型会不会变成一件容易的事。


参考链接:

https://lamini.ai/blog/introducing-lamini


相关文章
|
3月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
74 1
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
57 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
算法 搜索推荐 机器人
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
40 0
|
2月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
52 8
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
58 0
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
ChatGPT高效提问—基础知识(LM、PLM以及LLM)
ChatGPT高效提问—基础知识(LM、PLM以及LLM)
|
3月前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
103 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
79 10
|
3月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
47 7
|
4月前
|
并行计算 PyTorch 算法框架/工具
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM
有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
398 2

热门文章

最新文章

下一篇
无影云桌面