大数据AI一体化开发再加速:DataWorks 支持GPU类型资源

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。

打破Data+AI融合瓶颈:DataWorks支持 GPU类型资源

在人工智能技术飞速发展的今天,“数据+算力”的有效结合已成为释放数据价值的关键途径。企业不仅需要处理海量数据,更需将数据转化为智能洞察,而传统方式自行部署和使用GPU资源高成本投入、运维复杂性和弹性不足的特点,让开发者从“大数据”迈向“Data+AI”的关键跃迁陷入瓶颈。基于此,作为一站式智能数据开发治理平台,DataWorks在积累和沉淀了阿里巴巴十余年大数据建设方法论和最佳实践的基础上,宣布其Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。


这意味着开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。在此基础上:开发者可在DataWorks一个平台即可完成数据清洗、特征工程到模型训练/推理的全流程,无需跨平台迁移数据,真正实现“Data+ AI”一站式数据开发,让数据驱动的未来加速降临。

极简体验:GPU算力,开箱即用

LLaMA Factory是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架,GitHub星标超过3万。


DataWorks作为阿里云上的一站式智能数据开发治理平台,面向大数据&AI协同开发场景,提供了交互式开发和分析工具Notebook。DataWorks Notebook具备灵活且可复用的数据处理和分析环境,增强了数据开发和分析体验的直观性、模块化和交互性,能够帮助用户轻松高效地进行数据处理、数据探索、数据可视化和模型构建。


本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。


前置资源配置

注意需要将数据开发(DataStudio)(新版)公测开关置为开启才可使用Notebook。

  • 创建资源组:在DataWorks控制台创建“Serverless资源组”,将资源组绑定至目标工作空间。  

可选择开通按量付费资源组,领取免费试用资源组抵扣包资源来抵扣。


截屏2025-03-11 下午2.17.18.png

  • 选择刚刚创建的工作空间,点击创建实例,跳转到新建个人开发环境示例界面

截屏2025-03-11 下午2.17.31.png


  • 绑定GPU实例:创建个人开发环境实例,注意选择GPU资源类型时,选择以下配置:  
  • GPU 推荐使用 24GB 显存的 A10(ecs.gn7i-c8g1.2xlarge)或更高配置
  • 镜像选择 DSW 官方镜像 modelscope:1.18.0-pytorch2.3.0-gpu-py310-cu121-ubuntu22.04


操作步骤

1. 安装 LLaMA Factory

  • 首先,拉取 LLaMA-Factory 项目到 Notebook 个人开发环境实例。
!git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
%cd LLaMA-Factory


  • 接着,我们安装 LLaMA-Factory 依赖环境。
!pip uninstall -y accelerate vllm matplotlib
!pip install llamafactory==0.9.0


  • 运行如下命令,如果显示 LLaMA Factory 的版本,则表示安装成功。
!llamafactory-cli version


2. 下载数据集

LLaMA-Factory 项目内置了丰富的数据集,放在了 data 目录下。您可以跳过本步骤,直接使用内置数据集。您也可以使用DataWorks 构建自定义数据集或使用数据湖、数据仓库或湖仓一体架构中的数据来进行模型的微调,将数据处理为框架特定的格式,放在 data 下,并且修改 dataset_info.json 文件。DataWorks深度适配数十种大数据计算引擎进行数据集成,支持自定义数据集的开发与调度。


  • 本教程准备了一份多轮对话数据集,运行下述命令下载数据。
!wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/llama_factory/Qwen2-VL-History.zip
!mv data rawdata && unzip Qwen2-VL-History.zip -d data


  • 数据集中的样本为单轮对话形式,含有 261 条样本,每条样本都由一条系统提示、一条用户指令和一条模型回答组成,微调过程中模型不断学习样本中的回答风格,从而达到学习文旅知识的目的。数据样例如下所示:
[
  {
    "conversations": [
      {
        "from": "system",
        "value": "你是一个导游,请生动有趣地回答游客提出的问题"
      },
      {
        "from": "human",
        "value": "给我讲讲这个东西<image>"
      },
      {
        "from": "gpt",
        "value": "各位游客朋友们,大家好!\n\n现在映入大家眼帘的,是一件极为珍贵的文物——**神面纹玉戚**。它可不是一般的宝贝,而是来自遥远的新石器时代的一件精美玉器哦!\n\n这件宝贝现藏于山西博物院,它的尺寸相当精致:高20.6厘米,宽13.1厘米,厚仅0.4厘米,真是薄如蝉翼,工艺精湛!\n\n1964年,它在黎城县后庄村广志山出土,仿佛穿越时空,向我们诉说着古老的故事。\n\n大家仔细看,这块玉戚采用了线刻工艺,一侧雕刻着神人的半侧面头像,头戴华美的冠饰,披拂着飘逸的长发,眼眉清晰可辨,仿佛在凝视着我们;而另一侧则是一个方形台座上置神人冠饰的形象,显得神秘而威严。\n\n要知道,玉戚在古代可是象征军事统帅权力的神器,握有它,就如同掌握了千军万马!\n\n大家不妨多停留片刻,感受一下这件文物散发出的古老而神秘的气息吧!\n\n谢谢大家的聆听,接下来我们将继续参观其他精彩展品,敬请期待!"
      }
    ],
    "images": [
      "images/instance_1579398113581395972.jpg"
    ]
  }
]


3. 模型微调

3.1 启动 Web UI

做好前序准备工作后,直接运行下述命令就可以启动 Web UI。这里用到的环境变量解释如下:

  • USE_MODELSCOPE_HUB 设为 1,表示模型从 ModelScope 魔搭社区下载。避免从 HuggingFace 下载模型导致网速不畅。

点击返回的 URL 地址,进入 Web UI 页面。

!USE_MODELSCOPE_HUB=1 llamafactory-cli webui


3.2 配置参数

  • 进入 WebUI 后,可以切换语言到中文(zh)。

首先配置模型,本教程选择 Qwen2VL-2B-Chat 模型,微调方法修改为 full,针对小模型使用全参微调方法能带来更好的效果。

 


  • 数据集使用上述下载的 train.json

 


  • 可以点击「预览数据集」。点击关闭返回训练界面。

 


  • 设置学习率为 1e-4,训练轮数为 10,更改计算类型为 pure_bf16,梯度累积为 2,有利于模型拟合。


  • 在其他参数设置区域修改保存间隔为 1000,节省硬盘空间。


3.3 启动微调

  • 将输出目录修改为 train_qwen2vl,训练后的模型权重将会保存在此目录中。点击「预览命令」可展示所有已配置的参数,您如果想通过代码运行微调,可以复制这段命令,在命令行运行。
  • 点击「开始」启动模型微调。

 


  • 启动微调后需要等待一段时间,待模型下载完毕后可在界面观察到训练进度和损失曲线。模型微调大约需要 14 分钟,显示“训练完毕”代表微调成功。


4. 模型对话

  • 选择「Chat」栏,将检查点路径改为 train_qwen2vl,点击「加载模型」即可在 Web UI 中和微调后的模型进行对话。


  • 首先点击下载测试图片1测试图片2,并上传至对话框的图像区域,接着在系统提示词区域填写“你是一个导游,请生动有趣地回答游客提出的问题”。在页面底部的对话框输入想要和模型对话的内容,点击提交即可发送消息。


  • 发送后模型会逐字生成回答,从回答中可以发现模型学习到了数据集中的内容,能够恰当地模仿导游的语气介绍图中的山西博物院。


  • 点击「卸载模型」,点击检查点路径输入框取消勾选检查点路径,再次点击「加载模型」,即可与微调前的原始模型聊天。


  • 重新向模型发送相同的内容,发现原始模型无法准确识别山西博物院。


5. 总结

本次教程介绍了如何使用 DataWorks 和 LLaMA Factory 框架,基于全参方法微调 Qwen2-VL-2B 模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。在后续实践中,可以使用实际业务数据集,对模型进行微调,得到能够解决实际业务场景问题的本地领域多模态大模型。  


立即行动:免费额度,即刻体验!


DataWorks为新用户提供750CU*H免费GPU算力资源,有效期1个月。点击领取免费试用资源包;

同时推出400CU*H的资源组抵扣包5折活动,快领取资源组抵扣包畅享大数据AI一体化开发吧!

点击领取可选择开通按量付费资源组,领取或资源来抵扣。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&amp;AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
目录
打赏
0
24
24
0
109
分享
相关文章
AI大模型运维开发探索第四篇:智能体分阶段演进路线
本文探讨了智能体工程的演进历程,从最初的思维链(智能体1.0)到实例化智能体(智能体2.0),再到结构化智能体(智能体3.0),最终展望了自演进智能体(智能体4.0)。文章详细分析了各阶段遇到的问题及解决策略,如工具调用可靠性、推理能力提升等,并引入了大模型中间件的概念以优化业务平台与工具间的协调。此外,文中还提到了RunnableHub开源项目,为读者提供了实际落地的参考方案。通过不断迭代,智能体逐渐具备更强的适应性和解决问题的能力,展现了未来AI发展的潜力。
【04】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-自定义一个设置输入小部件组件-完成所有设置setting相关的页面-优雅草卓伊凡
【04】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-自定义一个设置输入小部件组件-完成所有设置setting相关的页面-优雅草卓伊凡
143 92
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
42 23
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题
香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体,支持多模型接入与自动化工作流编排,在GAIA基准测试中表现优异。
70 16
AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
68 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
【02】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-登录页面LoginView.ets完成-并且详细解释关于arkui关于 CommonConst, commonColor, InputDataModel-优雅草卓伊凡
【02】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-登录页面LoginView.ets完成-并且详细解释关于arkui关于 CommonConst, commonColor, InputDataModel-优雅草卓伊凡
38 14
【02】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-登录页面LoginView.ets完成-并且详细解释关于arkui关于 CommonConst, commonColor, InputDataModel-优雅草卓伊凡
【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡
【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡
30 11
【01】优雅草星云物联网AI智控系统从0开发鸿蒙端适配完成流程-初始化鸿蒙编译器deveco studio项目结构-UI设计图切片下载-优雅草卓伊凡
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
44 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
69 31
AI引爆全美失业潮?通义灵码助你开发路上不孤单!
达沃斯调查显示,超4成老板计划2025-2030年因AI自动化削减员工。首当其冲的是软件工程行业,Anthropic CEO称AI可能在12个月内接管几乎所有代码编写工作。面对这一变革,程序员应如何应对?通义灵码作为基于通义大模型的AI研发辅助工具,提供代码生成、智能问答等功能,助力开发者适应AI原生研发新范式。现可直接参与项目,完成未实现功能!

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等