Ollama 模型运行机制
- 按需加载:Ollama 不会持续运行所有已下载的模型,而是按需加载
- 自动卸载:当模型闲置一段时间(默认 5 分钟)后,Ollama 会自动从内存中卸载
- 内存管理:模型仅在响应请求时驻留内存,请求结束后保留在内存中的时间由
OLLAMA_KEEP_ALIVE控制
ollama与docker类似之处,都相当于在上面进行部署
比如docker 可以进行images部署运行,启停等等操作
ollama可以进行大模型部署(按需),没有提供单个大模型的启停命令
但是会在默认的限制时间内,自动停止运行(自动卸载)(最优解)
间接解决方案:
1.直接停止ollama服务,再重新开启需要运行的大模型(最有效)
2.创建多个ollama(端口不同),一个大模型一个ollama即可(繁琐)
3.直接rm操作(但是这是删除操作,本质上还在运行,并且停止后,如果要再运行需重新下载)(无法实现,常犯问题)