AI风口,算力无忧!

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
简介: 随着AI/ML技术的快速发展,各行各业在实际的应用场景中对计算资源的需求量越来越大,各大云厂商也是积极部署其IaaS资源,其中GPU是加速计算中最为关键需求之一。笔者将从新手体验性的使用到进阶体验,带领大家快速使用阿里云GPU云服务器,体验官方提供的八大场景。在后续的进阶体验中,教大家构建自己的大语言模型,如ChatGLM-6B。


✈️✈️✈️AIGC,点我出发

入"试"路引

随着AI/ML技术的快速发展,各行各业在实际的应用场景中对计算资源的需求量越来越大,各大云厂商也是积极部署其IaaS资源,其中GPU是加速计算中最为关键需求之一。

笔者将从新手体验性的使用到进阶体验,带领大家快速使用阿里云GPU云服务器,体验官方提供的八大场景。在后续的进阶体验中,教大家构建自己的大语言模型,如ChatGLM-6B


近一年来,以 StableDiffusion 为首的AI绘画模型自推出后,AI模型快速迭代。随后市面上又出现了一大批让人惊掉下巴的新突破。当前来看,普通玩家想体验AI绘画模型,无非下面几种方式:

方式

优势

劣势

本地部署(个人PC)

成本低

出图效率可能相对低

使用第三方付费在线平台(含Serverless部署)

效率较高

成本高

使用GPU云服务器部署

效率最高,且成本相对较低

部署有一定门槛


由上述表格可以看出,虽然现在各大厂商都有推出【Serverless部署StableDiffusion】,上手很简单,但是成本算下来也不低了,且客制化需求不太容易满足所以使用GPU云服务器来部署AI绘画模型算是一种性价比较高的方式,但对于用户入手也许并不容易,有入门门槛,虽然网上有很多教程,但是五花八门的,不一定都适用,官方很贴心的想到了这点,给大家早就准备好了实验”秘籍“,下面就跟随我一起操作下吧

视频教程

小试牛刀

八大秘籍,实验不抓瞎

💡官方很贴心的为所有使用GPU的新人准备了【八大秘籍】,让新人也能轻松探索AIGC

“兵器”购置

"练家子"哪能没有"神器",根据官方建议,建议了两款GPU服务器机型,在这次实验中我们选用配置较低的一款 "8核32G + 1张V100 16G显存(gn6v-c8g1.2xlarge)",选择该规格的GPU服务器是因为成本足够低,足以支撑我们本次实验。同时,官方在2023年9月期间,新人购买GPU实例也是有优惠价,有需要的朋友可以,直达活动页面看看:开启AIGC之旅

点击直接购买:🛒gn6v-c8g1.2xlarge

额外注意

需要使用指定的 云市场镜像,名称为 ai-inference-solution

修炼秘籍

本次实验是用官方八大秘籍之一的 《基于AIACC加速器快速实现Stable Diffusion生成特定物体图片》

直达链接✈️✈️✈️:基于AIACC加速器快速实现AIGC绘画


配置模型

# 设置nginx
# 使用示例密码
htpasswd -bc /etc/nginx/password admin 'ECS@test1234'
systemctl restart nginx
systemctl enable nginx --now

开始文本生成图片

启动WebUI服务

cd ~/stable-diffusion-webui/
nohup ./run_taiyi.sh &

开启AI绘画并测试AiaccTorch加速效果【默认已启用AiaccTorch】

  1. 浏览器打开WebUI页面

  1. AI绘画

在对话框中输入关键字 埃菲尔铁塔,月球,科幻,3D,赛博朋克

更换模型

左上角切换模型  Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1

官方示例:

  • 提示词示例:
1个女孩,绿眼,棒球帽,金色头发,闭嘴,帽子,看向阅图者,短发,简单背景,单人,上半身,T恤
  • 反向提示词示例:
水彩,漫画,扫描件,简朴的画作,动画截图,3D,像素风,原画,草图,手绘,铅笔

插件测试

LoRA插件

在提示词中添加参数  ,启用LoRA

Controlnet插件(可选实验)

本次用的ecs.gn6v-c8g1.2xlarge 使用的是V100的卡, 镜像市场上的镜像有点老 ,如果使用V100的卡的实例来运行就会报错,使用A10的就可以正常运行

单击Controlnet右侧的图标,选中启用/EnableControl Type选择Canny,在单张图像/Single Image区域中,上传输入的图片(如Lena图)。


性能观察


什么?没钱练"武"?

如果您没有预算,那么也没问题,阿里云还是贴心的为大家准备好了 【云起实验室】为大家预置了一个免费的实验环境,足以支撑大家完成✈️✈️✈️部署Stable Diffusion玩转AI绘画(GPU云服务器)

小小建议

  1. 可以参考像SAE 2.0那样,在教程中加入视频,这样对于图文感知力并不强的学习者而言,是一个非常友好的教学方式。

向前一小步,学会一大"部"

首先我们来看看神经网络和大语言模型的发展,自1943年,最早就提出了神经网络的概念,历经多年的发展,再加上算力的大幅提升,为后续的大语言模型推出奠定了坚实的基础。

从2018年至今,GPT-1到现如今的GPT-4等等众多大语言模型。直至今日,各大厂商纷纷推出了自己的大语言模型,例如阿里云有义通千问,百度有 文言一心,腾讯有“混元”(正式发布于2023.09.07)等,个人感觉在市面上用的多的还是GPT3.5,但是因为各种各样的限制,导致用户使用ChatGPT没有那么方便,那么阿里云在昨天(2023.09.13)宣布阿里云通义千问向全社会开放!,给用户多了一个选择,实际使用效果也很棒,大家都可以去尝试下

直达✈️ 义通千问:https://qianwen.aliyun.com/

ChatGLM-6B上云部署

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答

ChatGLM-6B项目地址https://github.com/THUDM/ChatGLM-6B


为什么选择ChatGLM-6B来进行部署?

  1. 硬件环境要求相对低,本地部署仅需6GB显存
  2. 部署简单
  3. 专为中文优化

硬件需求

量化等级

最低 GPU 显存(推理)

最低 GPU 显存(高效参数微调)

FP16(无量化)

13 GB

14 GB

INT8

8 GB

9 GB

INT4

6 GB

7 GB

安装cuda

cuda下载页面:

https://developer.nvidia.com/cuda-11-7-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=deb_network

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-ubuntu2204-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-11-7-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda
echo "export PATH=/usr/local/cuda-11.7/bin/:\$PATH" >> /etc/profile
echo "export DL_LIBRARY_PATH=/usr/local/cuda-11.7/lib64:\$DL_LIBRARY_PATH" >> /etc/profile
source /etc/profile
nvidia-smi
nvcc -V

安装cudnn

下载对应cuda的版本(8.6):

https://developer.nvidia.com/compute/cudnn/secure/8.6.0/local_installers/11.8/cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz

建议下载到本地后,上传到OSS存储桶,然后在服务器上使用ossutil工具进行cp到云服务器上,如果本地直接传输到服务器速度10MB/s以上也可以

ossutil使用(可选)

# 安装ossutil
sudo -v ; curl https://gosspublic.alicdn.com/ossutil/install.sh | sudo bash
# 配置config
ossutil config
## 杭州endpoint: https://oss-cn-hangzhou.aliyuncs.com


tar -xf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz 
cp cudnn-linux-x86_64-8.6.0.163_cuda11-archive/include/cudnn*.h /usr/local/cuda-11.7/include
cp -P cudnn-linux-x86_64-8.6.0.163_cuda11-archive/lib/libcudnn* /usr/local/cuda-11.7/lib64/
chmod a+r /usr/local/cuda-11.7/include/cudnn*.h /usr/local/cuda-11.7/lib64/libcudnn*
# 验证
cat /usr/local/cuda-11.7/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

安装torch

两种方式,任选其一

# conda
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
# Wheel
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

验证torch

import torch
print(torch.__version__)
print(torch.cuda.is_available())

速通玩法(可选)

我已经将后续实验的仓库克隆到了gitee,包括model,只需要运行run.py脚本即可使用ChatGLM-6B

如果您想手动体验整个操作流程,可以继续后续的步骤-->克隆仓库,配置模型,运行ChatGLM-6B几个模块

非常抱歉,由于Gitee限制上传100M以上的大文件,所以模型文件还得各位自己下载了,配置文件以及run.py都预置好了

git clone https://gitee.com/unicornstar/aliyun-gpu-chat-glm-6-b.git
cd AliyunGPU-ChatGLM-6B
pip install -r requirements.txt
python3 run.py

克隆仓库

apt install git
git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B
pip install -r requirements.txt

配置模型

下载模型文件

wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00001-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00002-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00003-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00004-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00005-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00006-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00007-of-00008.bin&dl=1'
wget -P 'ChatGLM-6B/model' --no-check-certificate --content-disposition 'https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/files/?p=%2Fpytorch_model-00008-of-00008.bin&dl=1'

下载模型配置文件

https://huggingface.co/THUDM/chatglm-6b/tree/main

先将下面的文件下载到本地,再上传到服务器的 ChatGLM-6B/model 目录中

运行ChatGLM-6B

给大家准备了一个脚本,用python运行即可

import fire
from transformers import AutoTokenizer, AutoModel
MODEL_PATH = 'model'
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
model = AutoModel.from_pretrained("/root/ChatGLM-6B/model", trust_remote_code=True).half().cuda()
model = model.eval()
def infer():
    while True:
        request = input("你好,我是ChatGLM-6B >>>  ")
        history = []
        while not request:
            print('Prompt should not be empty!')
            request = input("Model prompt >>> ")
        response, _history = model.chat(tokenizer, request, history=history)
        history = _history
        print('\033[1;31m{}\033[0m'.format(request) + '\033[1;33m{}\033[0m'.format(response))
if __name__ == '__main__':
    fire.Fire(infer)

性能观察

总结一下

  1. 快速上手资源多,阿里云官方很贴心的考虑到了新手入门的问题,也准备了很多“武功秘籍”给到大家,现在关于AIGC实践的有10个实验,可以直接在📚官网文档找到
  2. 价格有优势,多种可选的计费方式(包年包月/按需/抢占),尤其要说一点的就是抢占式,笔者本人因为之前训练DRFC项目的模型的时候使用亚马逊云科技的GPU服务器,也是使用抢占式模式,结果总是资源不足,而反观阿里这边,资源很充足,在本篇文章撰写期间,没有出现过因为资源竞价的原因而导致服务器停止的情况
  3. 售后给力,之前就一直给阿里的同学提意见,就是售后一定要抓起来,好的服务离不开好的售后,这句话是100%没有问题的,在本篇文章中有遇到技术问题,阿里的同学也是很积极的一起拉群讨论,这样的售后足以让客户满意!
  4. 资源丰富,大家都知道A100显卡资源其实很紧张,笔者发现在阿里云上居然有提供NVIDIA A100的机型,这点的确要给阿里一个大赞,对于有A100需求的企业而言,市面上又无法购买,那么选择阿里云是错不了的,毕竟阿里云的口号就是:为了无法计算的价值
  5. 云起实验室,没钱也能学,官方也贴心的为大家准备了有GPU资源的实验室,足以支撑大家完成一些实验
  6. 优惠力度大,新人上手没有经济负担,最大1折玩GPU服务器。
  7. 服务器压力,在两个场景中大家可以在结尾的【性能观察】模块看到的是,服务器的整体负载并不大,对于SD场景实验而言,GPU的压力就更小了,V100 16G内存完全能够胜任。再看ChatGLM-6B,GPU压力稍大,毕竟不是用的int-4来进行实验,而服务器的CPU和内存起伏还是很小,整体运行平稳流畅


小小建议

  1. 正如新手体验给到的建议一样,可以考虑在AIGC的快速上手实验中都给添加一个视频教程
  2. 文档可以更加细化一下,例如某些机型可能会出现的问题,问题排查模块等等


闲聊一下

最近有看到一篇文章,题为 《大模型救了阿里云》,可以看出阿里云在盈利后,全球又掀起了GenAI热潮,大模型所需要的AI云服务资源又是非常大的需求,阿里云作为国内基础设施部署最多的云厂商,自然挑起重担,且阿里云将AI与自家云服务产品结合,不断将智能化的服务推送给用户,在GenAI热潮中,阿里云作为中国首个开源自研大模型的科技大厂,阿里云也推出了自家的大模型服务,同时也积极贡献出开源模型,也有自己的大模型社区,可谓是服务生态两手抓。2023年9月13日,阿里云义通千问面向全社会开放,向社会展现出了自己的信心!

在这里也衷心希望阿里云能够推出更好的服务,回馈用户,回馈社会!

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
2月前
|
人工智能 并行计算 调度
AI创业公司的算力困境,远比你想象的更复杂
当前AI创业公司面临严峻“算力困局”:不仅受制于高昂成本,更受限于技术封锁、生态绑定与资源低效。算力获取难、用不起、用不好,正成为制约创新的关键瓶颈。
|
4月前
|
存储 人工智能 Cloud Native
科技云报到:算力即国力,智算基础设施成AI下一主战场
在数字化与AI浪潮推动下,算力已成为衡量国家竞争力的核心指标。随着大模型和生成式AI迅猛发展,中国智能算力规模持续高速增长,2024年达725.3 EFLOPS,预计2026年将突破1460 EFLOPS。未来,算力将呈现多样化、泛在化与智能绿色三大趋势,推动AI基础设施升级。以联通云为代表,通过AI全栈焕新,构建覆盖“云-网-数-智-安”的全链条智算能力,助力千行百业智能化转型。
447 5
|
3月前
|
人工智能 运维 安全
重塑 AI 算力底座!阿里云服务器操作系统 V4 正式发布
Alinux 4不仅是技术突破,更是产业变革的催化剂。
|
5月前
|
存储 人工智能 云计算
挑战杯专属支持资源|阿里云-AI大模型算力及实验资源丨云工开物
阿里云发起的“云工开物”高校支持计划,助力AI时代人才培养与科研创新。为“挑战杯”参赛选手提供专属算力资源、AI模型平台及学习训练资源,包括300元免费算力券、百炼大模型服务、PAI-ArtLab设计平台等,帮助学生快速掌握AI技能并构建优秀作品,推动产学研融合发展。访问链接领取资源:https://university.aliyun.com/action/tiaozhanbei。
|
6月前
|
人工智能 缓存 安全
算力引擎如何按下 AI 落地加速键?
本文探讨了AI时代企业对算力的新需求及应对策略,涵盖高吞吐与实时性、向量数据库挑战、隐私保护与成本控制等关键议题。文章还分析了垂直场景下的算力解决方案,如PolarDB的“Data+AI”理念和身份安全领域的多模态检测系统。同时介绍了英特尔至强六代处理器与阿里云G9i实例的创新实践,并展望了AI未来发展趋势,强调降低门槛、多元算力生态建设及端到端工程化思维的重要性。
|
6月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
206 11
|
7月前
|
存储 人工智能 边缘计算
当 AI 进入「算力密集时代」:你的服务器能跑通大模型吗?
本文深入探讨AI服务器在技术落地中的核心瓶颈问题,结合实战经验解析从模型训练到端侧部署的算力优化策略。内容涵盖三大典型场景的算力需求差异、GPU服务器选型的五大反直觉真相、实战优化方法(如混合精度训练与硬件资源监控),以及边缘AI部署挑战和解决方案。同时提供算力弹性扩展策略、模型生命周期管理及合规性建议,帮助读者构建可持续发展的算力体系。文末附有获取更多资源的指引。
559 17
|
2月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
2月前
|
人工智能 边缘计算 大数据
【C位面对面】被低估的“通用算力”:为什么 AI 时代CPU 的需求“不降反增”?
AI时代下,大数据、高频交易、AI预处理、边缘计算等核心负载持续推高CPU算力需求。阿里云联合AMD,基于Zen5架构Turin处理器,推出三款场景化云实例:普惠型u2a、高主频g9a及192核g9ae,满足多样算力需求。通过CIPU+Chiplet技术实现性能跃迁,释放CPU真正潜力,助力企业把握通用计算的“第二增长曲线”。

热门文章

最新文章

下一篇
oss云网关配置