ModelScope llama.cpp是不是可以小很多GGUF格式的?
llama.cpp是一个用C/C++编写的Llama 2的运行时,它能让模型在普通笔记本电脑上运行,并负责将模型转换为GGUF文件。GGUF格式由llama.cpp团队于2023年8月21日推出,用于替代不再得到llama.cpp支持的GGML格式。GGUF的主要优点在于它是一种可扩展的、未来可维护的格式,可以存储更多关于模型的元数据信息。
开发者Georgi Gerganov基于Llama模型手撸了一个纯C/C++版本,最大的优势是可以在CPU上快速地进行推理而不需要GPU。然后作者将该项目中模型量化的部分提取出来做成了一个用于机器学习张量库:GGML。
使用llama.cpp时,你需要准备gguf格式的文件。你可以下载已转换的模型文件,例如你想使用Vicuna 13B v1.5,你可以从TheBloke/vicuna-13B-v1.5-GGUF下载已转换的文件。将其下载到models目录并将其重命名为ggml-model-q4_0.gguf。