浪潮信息开源 源2.0 基础大模型,魔搭社区最佳实践教程来啦!

简介: 浪潮信息发布源2.0基础大模型,参数量包括1026亿、518亿、21亿三个大模型,从源2.0的论文上可以看到,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化,还在算法、数据、算力方面,提出了三项创新。

引言

浪潮信息发布源2.0基础大模型,参数量包括1026亿、518亿、21亿三个大模型,从源2.0的论文上可以看到,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化,还在算法、数据、算力方面,提出了三项创新。

image.png

算法方面,源2.0提出并采用了一种新型的注意力算法结构LFA(局部注意力过滤增强机制,Localized Filtering-based Attention),对于自然语言的关联语义理解更准确。

数据方面,源2.0使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,增加了高质量的专业数据集和逻辑推理数据集。

算力方面,源2.0采用了非均匀流水并行和优化器参数并行的分布式训练方法,显著降低了大模型对芯片间P2P带宽的需求。

GitHub开源地址:

https://github.com/IEIT-Yuan/Yuan-2.0

ModelScope模型开源地址:

https://modelscope.cn/models/YuanLLM/Yuan2-2B-Janus

ModelScope创空间体验地址:https://modelscope.cn/studios/YuanLLM/yuan/summary

小模型有大能量

在魔搭创空间,CPU就可以运行host Yuan2-2B-Janus-Chat模型。

Yuan2-2B-Janus-Chat模型虽然尺寸小,但是已经具备比较好的文学创作能力:

常识问答能力:

数学计算能力:

代码能力:

模型推理

在ModelScope社区的免费算力上可以实现Yuan2-2B-Janus-hf模型的推理

模型链接:

Yuan2-2B-Janus-hf:

https://modelscope.cn/models/YuanLLM/Yuan2-2B-Janus-hf/summary

推理代码:

import torch
import os
from modelscope import AutoModelForCausalLM, AutoTokenizer
print("Creat tokenizer...")
tokenizer = AutoTokenizer.from_pretrained('YuanLLM/Yuan2-2B-Janus-hf', add_eos_token=False, add_bos_token=False, eos_token='<eod>')
tokenizer.add_tokens(['<sep>', '<pad>', '<mask>', '<predict>', '<FIM_SUFFIX>', '<FIM_PREFIX>', '<FIM_MIDDLE>','<commit_before>','<commit_msg>','<commit_after>','<jupyter_start>','<jupyter_text>','<jupyter_code>','<jupyter_output>','<empty_output>'], special_tokens=True)
print("Creat model...")
model = AutoModelForCausalLM.from_pretrained('YuanLLM/Yuan2-2B-Janus-hf', device_map='auto', torch_dtype=torch.bfloat16, trust_remote_code=True)
inputs = tokenizer("请问目前最先进的机器学习算法有哪些?", return_tensors="pt")["input_ids"].to("cuda:0")
outputs = model.generate(inputs,do_sample=False,max_length=100)
print(tokenizer.decode(outputs[0]))

显存占用:

模型微调

使用SWIFT对 Yuan2-2B-Janus-Chat 进行微调, 解决分类问题。

我们使用的数据集hc3-zh包含了给定问题的人类-ChatGPT回答文本对, 通过这个数据集,可以训练一个区分对应回答是来自人类还是ChatGPT的分类模型。

代码开源地址:

https://github.com/modelscope/swift

微调脚本:

# Experimental environment: A10
# 7GB GPU memory
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model_type yuan2-janus-2b-instruct \
    --sft_type lora \
    --template_type AUTO \
    --dataset hc3-zh \
    --train_dataset_sample 20000 \
    --eval_steps 100 \
    --output_dir output \
    --num_train_epochs 1 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --use_flash_attn false \
    --save_only_model true \
    --lora_target_modules ALL \

训练过程也支持本地数据集,需要指定如下参数:

--custom_train_dataset_path xxx.jsonl \
--custom_val_dataset_path yyy.jsonl \

自定义数据集的格式可以参考:

https://github.com/modelscope/swift/blob/main/docs/source/LLM/自定义与拓展.md#注册数据集的方式

微调后推理脚本: (这里的ckpt_dir需要修改为训练生成的checkpoint文件夹)

# Experimental environment: A10
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --ckpt_dir "output/yuan2-2b-janus-instruct/vx_xxx/checkpoint-xxx" \
    --load_dataset_config true \
    --max_length 2048 \
    --use_flash_attn false \
    --max_new_tokens 2048 \
    --do_sample false \
    --merge_lora_and_save false \

微调后生成样例:

[PROMPT]Classification Task: Are the following responses from a human or from ChatGPT?
Question: 健身房器械训练一小时消耗多少卡路里?
Answer: 健身房器械训练一小时消耗的卡路里数量可能因人而异。这取决于许多因素,包括您的体重、强度、持续时间以及健身房器械本身。
一般来说,使用健身房器械训练时,您可以期望每小时消耗约 400-600 卡路里。但是,如果您的训练强度很高或者体重很大,那么您可能会消耗更多的卡路里。反之,如果您的训练强度较低或者体重较小,您可能会消耗较少的卡路里。
要准确地了解您在使用健身房器械训练时消耗的卡路里数量,最好是使用专业运动手表或追踪器来测量您的消耗量。这些设备通常可以准确地测量您的心率、持续时间以及其他因素,并使用这些信息来估算您的卡路里消耗量。
Category: Human, ChatGPT
Output:<sep>[OUTPUT]ChatGPT<eod>
[LABELS]ChatGPT
--------------------------------------------------
[PROMPT]Classification Task: Are the following responses from a human or from ChatGPT?
Question: 我有一个计算机相关的问题,请用中文回答,什么是 5.25英寸软盘
Answer: 5.25英寸软盘是便携式软盘,它被封装在一个硬质塑料壳内,塑料壳上有防尘、防接角的金属保护罩,盘体无裸露,当将此盘放入磁盘驱动器时,计算机会自动移开金属罩而读取此盘中的数据。
软盘有八寸、五又四分一寸、三寸半之分,8英寸的软盘虽然从技术原理上已经很接近现代软盘,但缺陷就是体积过大,携带很不方便,于是5.25英寸的软盘诞生了。
但是之后体积更小、容量更大的光盘的出现,宣告了软盘时代的终结。当然,现在光盘也正在被U盘(USB disk)等更现代化的存储器淘汰。
Category: Human, ChatGPT
Output:<sep>[OUTPUT]Human<eod>
[LABELS]Human

点击直达模型体验

Yuan2-2B-Janus-demo · 创空间 (modelscope.cn)

相关文章
|
24天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
144 2
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
250 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
399 2
|
2月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
381 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
940 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
481 0
|
2月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
403 0
|
2月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
615 29
|
1月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
419 21

热门文章

最新文章