【LLM】能够运行在移动端的轻量级大语言模型Gemma实践-阿里云开发者社区

【LLM】能够运行在移动端的轻量级大语言模型Gemma实践

2024-04-28 325

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 【4月更文挑战第12天】可以运行在移动端的开源大语言模型Gemma模型介绍

[toc]

轻量级模型是 AI 模型，与传统模型相比，设计得更小、更高效。轻量模型表现为：

更快的处理速度，因为它们需要更少的计算能力来在笔记本电脑甚至智能手机等资源较少的设备上运行和操作。
减少内存使用量，因为它们占用的内存空间更少。
降低运行模型所需的计算成本。

这种模型是通过使用更少的参数、创建优化的架构和量化（使用更少的位表示模型的数据）来实现的。

轻量级模型的示例包括 MobileNet（一种专为移动和嵌入式视觉应用设计的计算机视觉模型）、EfficientDet（一种对象检测模型）和 EfficientNet（一种使用复合缩放以实现更好性能的 CNN）。所有这些都是来自谷歌的轻量级模型。

在本文中，我们将介绍 Gemma，一款最先进的轻量级模型。

简介

Gemma 是由 Google AI 开发的一系列轻量级开源机器学习模型，这些模型易于访问且高效，使 AI 开发更容易为广大用户所接受。Gemma 于 2024 年 2 月 21 日发布，采用与Gemini 模型相同的技术架构。Gemma 是基于文本训练的。它在文本摘要、问答和推理等任务中表现出色。

根据可训练参数数量，Gemma 模型有两种主要版本：2B 和 7B，同时它还提供指令调整模型，如 Gemma 2B-FT 和 7B-FT，这些模型专为使用个人数据集进一步定制而设计。

一、Gemma构建

安装要求：

Kaggle账户
Colab Notebook

要获得对 Gemma 的访问权限，必须向 Gemma 模型卡发送访问请求并选择“请求访问”。您将需要填写同意书并接受条款和条件。然后，选择 Colab 运行时并配置 API 密钥。可以在 Gemma 设置文档中找到详细的设置。

在本教程中，我们将使用 Colab notebook环境来运行模型。完成 Gemma 设置后，您必须为 Colab 环境设置变量。

import os
from google.colab import userdata


os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')

设置环境变量后，下一步是安装依赖项。要使用 Gemma，KerasNLP 是使用的依赖项。KerasNLP 是在 Keras 中实现的自然语言处理（NLP）模型的集合，可在 JAX、PyTorch 和 TensorFlow 上运行。

pip install -q -U keras-nlp
pip install -q -U keras>=3

现在已经安装了 KerasNLP，将选择一个后端来运行 Gemma。在下面的代码块中，使用了 jax。

import os

os.environ["KERAS_BACKEND"] = "jax"  # Or "tensorflow" or "torch".

最后一步是导入已安装的库，并使用 GemmaCausalLM 类上的 from_preset 方法实例化 Gemma 模型。

import keras
import keras_nlp
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma_2b_en")

# get more information about the model
gemma_lm.summary()

让我们现在开始生成一些文本！该类具有一个基于提示生成文本的 generate 方法。

gemma_lm.generate("What is Generative AI?", max_length=64)

第一次运行可能需要一些时间，但后续运行将从提供的提示返回近乎即时的结果。

generate 方法还可以将一批提示作为字符串列表。

gemma_lm.generate(
    ["What is the greatest thing ever?",
     "Why is the sky blue?"],
    max_length=256)

二、Gemma微调（LoRA）

微调是采用预训练模型并通过对更具体的数据集进行额外训练来进一步调整它的过程。这种技术利用了模型的通用功能，并允许模型在特定任务中表现出色，而不是停留在通用工具上。实现这种微调的一种技术是 LoRA（低秩适应）。

LoRA 是一种旨在增强预训练模型能力的技术。它通过一组明显更小的可训练参数来有效地优化transformer 网络。这些参数就像一个轻量级的“适配器”，位于预训练的 LLM 之上。

通过微调此适配器，LoRA 可以针对新任务修改模型的行为，而无需对底层结构进行大量更改。这意味着更快的训练时间、更少的内存使用量以及在功能较弱的硬件上运行 LLM 的能力。

在本节中，我们将微调来自 Hugging Face 的心理健康数据集。数据集地址：https://huggingface.co/datasets/Amod/mental_health_counseling_conversations

首先，我们通过运行下面的块来下载数据集。

wget -O mental_health_counseling_conversations https://huggingface.co/datasets/Amod/mental_health_counseling_conversations/raw/main/combined_dataset.json

下载数据后，我们使用 2000 个示例的子集执行简单的预处理。

import json
data = []
template = "Question:\n{Context}\n\nResponse:\n{Response}"
with open("combined_dataset.json") as file:
    for line in file:
        features = json.loads(line)
        # Appending all rows
        data.append(template.format(**features))


data = data[:500]

让我们使用提示词并观察生成的响应。

prompt = template.format(
    Context="What should I do when I feel sad?",
    Response="",
)
print(gemma_lm.generate(prompt, max_length=256))

为了从模型中获得更好的响应，我们现在在数据集上使用 LoRA 进行微调，我们将使用 4 级，为了提高计算效率，建议从小级开始。

gemma_lm.backbone.enable_lora(rank=4)
gemma_lm.summary()

接下俩，我们配置参数并执行一个训练会话

gemma_lm.preprocessor.sequence_length = 512


optimizer = keras.optimizers.AdamW(
    learning_rate=5e-5,
    weight_decay=0.01,
)


optimizer.exclude_from_weight_decay(var_names=["bias", "scale"])


gemma_lm.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=optimizer,
    weighted_metrics=[keras.metrics.SparseCategoricalAccuracy()],
)
gemma_lm.fit(data, epochs=1, batch_size=1)

等微调完毕之后，我们再次输入提示词，观察输出的结果与原来有什么不同

prompt = template.format(
    Context="What should I do when I feel sad?",
    Response="",
)

响应存在差异，这是因为微调。为了从微调模型中获得更好的响应，可以执行以下操作：

训练更多步骤（epoch）。
设置更高的 LoRA 等级。
修改超参数值。
增加微调数据集的大小。

小结

我们探索了 Gemma 的创新性和能力。Gemma以文本为中心，可以对文本执行一系列任务。此外，Gemma 支持使用 LoRA 微调，为定制和适应特定任务和数据集提供了可能性。方便用户进一步提高模型的准确性，根据他们的独特要求进行模型定制。

【LLM】能够运行在移动端的轻量级大语言模型Gemma实践

简介

一、Gemma构建

二、Gemma微调（LoRA）

小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【LLM】能够运行在移动端的轻量级大语言模型Gemma实践

简介

一、Gemma构建

二、Gemma微调（LoRA）

小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景