🙋魔搭ModelScope本期社区进展:
📟6041个模型:GOT-OCR2.0、Qwen2.5系列、DeepSeek-V2.5、XVERSE-MoE-A36B等;
📁184个数据集:MMMLU、Omni-MATH、CCI3-Data、chinese-cosmopedia、Chinese Fineweb Edu Dataset、Infinity-Instruct、data-juicer-t2v-evolution-data-pool等;
🎨129个创新应用:通义千问2.5体验集、GOT官方Demo、可图AI试衣等;
📄11篇文章:
- 阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
- 魔搭社区@2024云栖大会全回顾
- 魔搭上新啦!智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
- 实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
- Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
- ModelScope魔搭9月版本发布月报
- 社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
- ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
- 社区供稿 | OpenCSG开源中文版fineweb edu数据集!
- Liger kernel训练加速,一行代码训练吞吐量提高 20%,显存使用量降低 60%
- 社区供稿 | Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型
精选模型
Qwen2.5系列
通义千问团队最新发布Qwen2.5系列,包括语言模型 Qwen2.5、专门针对编程的 Qwen2.5-Coder 和数学Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括:
- Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
- Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
- Qwen2.5-Math: 1.5B, 7B, 以及72B。
模型合集链接:
https://modelscope.cn/models?name=Qwen2.5&page=1
代码示例:
以Qwen2.5-72B-Instruct为例,使用transformers推理
from modelscope import AutoModelForCausalLM, AutoTokenizer model_name = "qwen/Qwen2.5-7B-Instruct" model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained(model_name) prompt = "Give me a short introduction to large language model." messages = [ {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate( **model_inputs, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
更多推理、微调实战教程详见:
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
GOT-OCR2.0
阶跃星辰多模态团队开源的GOT-OCR2_0 以LLM为核心,对OCR技术提出更高要求,除文本识别外,还与多模态能力相结合,实现更为丰富的信息提取和理解。 该模型采用了Transformer结构,并结合了图像编码器、线性层和解码器三个模块。在预训练阶段,首先通过纯文本识别任务来预训练视觉编码器,然后连接一个更强大的解码器来进行多任务联合训练,以注入更多的OCR-2.0知识。最后,通过对解码器进行后训练,可以定制化新的OCR功能。
模型链接:
https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0
代码示例:
安装依赖:
!pip install verovio
模型推理:
from modelscope import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True) model = AutoModel.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id) model = model.eval().cuda() # input your test image image_file = '/mnt/workspace/58F3EF14-E073-4BBE-B9D9-53CCFE6AE183.png' # plain texts OCR res = model.chat(tokenizer, image_file, ocr_type='ocr') # format texts OCR: # res = model.chat(tokenizer, image_file, ocr_type='format') # fine-grained OCR: # res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='') # res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='') # res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='') # res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='') # multi-crop OCR: # res = model.chat_crop(tokenizer, image_file, ocr_type='ocr') # res = model.chat_crop(tokenizer, image_file, ocr_type='format') # render the formatted OCR results: # res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file = './demo.html') print(res)
更多推理、微调实战教程详见:
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
DeepSeek-V2.5
DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本,新模型融合了前两个版本的通用能力和编码能力。
模型链接:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2.5
代码示例:
import torch from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig model_name = "deepseek-ai/DeepSeek-V2.5" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) # `max_memory` should be set based on your devices max_memory = {i: "75GB" for i in range(8)} # `device_map` cannot be set to `auto` model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager") model.generation_config = GenerationConfig.from_pretrained(model_name) model.generation_config.pad_token_id = model.generation_config.eos_token_id messages = [ {"role": "user", "content": "Write a piece of quicksort code in C++"} ] input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt") outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100) result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True) print(result)
XVERSE-MoE-A36B
XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,本次开源的模型为底座模型 XVERSE-MoE-A36B,主要特点如下:
- 模型结构:基于Decoder-only的Transformer架构,扩展FFN层为专家层,每个专家大小为标准FFN的1/4,并设有共享专家和非共享专家,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
- 训练数据:使用包含40多种语言的高质量多样化数据进行训练,确保中英文表现优异,兼顾其他语言效果。训练样本长度为8K,并动态引入高质量数据。
- 训练策略:调整学习率调度器以快速适应新数据。
- 训练框架:优化MoE模型中的专家路由和权重计算,开发高效融合算子,提升计算效率;为解决MoE模型显存和通信挑战,设计了计算、通信和CPU-Offload的Overlap处理,提升吞吐量。
模型链接:
https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
代码示例:
可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理:
import torch from modelscope import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B") model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto') model = model.eval() inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids inputs = inputs.cuda() generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1) print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
数据集推荐
MMMLU
OpenAI推出MMMLU多语言大规模多任务语言理解数据集,用于评估和提升人工智能模型在不同语言、认知和文化背景下的性能。它建立在广受欢迎的MMLU基准之上,包含57项涵盖广泛主题和难度级别的任务,涉及基础数学到复杂法律和物理问题。MMMLU支持阿拉伯语、德语、斯瓦希里语等14种语言,能评估模型在资源丰富和匮乏的语言上的表现。专业翻译人员确保数据集准确可靠,对于跨语言任务中的AI能力评估至关重要。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/MMMLU
Omni-MATH
人工智能领域的最新进展,尤其是大型语言模型 (LLM) 的进展,已导致数学推理能力取得重大突破。然而,现有的基准测试(如 GSM8K 或 MATH)现在已能以高精度解决(例如,OpenAI o1 在 MATH 数据集上实现了 94.8%),这表明它们不足以真正挑战这些模型。为了缓解这一限制,该项工作提出了一个全面且具有挑战性的基准测试,专门用于评估 LLM 在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准测试不同,数据集专注于数学,包含 4428 个竞赛级问题。这些问题被精心分为 33 个(可能更多)子领域,涵盖 10 个不同的难度级别,从而能够对不同数学学科和复杂程度的模型性能进行细致的分析。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/Omni-MATH
CCI3-Data
针对中文优质安全数据集稀缺的问题,北京智源人工智能研究院于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,近期,在此基础上继续扩充数据来源,采用更严格的数据清洗方法,完成CCI 3.0数据集的建设。该数据集由来自可信来源的高质量、可靠的互联网数据组成,经过严格的数据清洗去重,针对内容质量和安全进行了针对性的检测和过滤。数据处理规则包括:
- 基于规则的过滤:基于关键字的安全过滤、垃圾信息过滤等。
- 基于模型的过滤:通过训练分类模型过滤低质量内容
- 重复数据删除:数据集内和数据集之间的重复数据删除
数据集链接:
https://modelscope.cn/datasets/BAAI/CCI3-Data
chinese-cosmopedia
中文宇宙百科数据集共包含 1500 万个词条,约 600 亿个 token。构建合成数据集的两个关键元素是种子数据和提示。种子数据决定生成内容的主题,提示则定义数据的风格(如教科书、故事、教程或少儿读物)。数据来源多样,包括中文维基百科、百度百科、知乎问答、技术博客等,确保内容的广度和权威性。生成的数据格式多样,如大学教科书、中学教科书、儿童故事、普通故事、WikiHow 风格的教程等。通过为每个种子数据生成多种风格,该数据集不仅适用于学术研究,还可广泛应用于教育、娱乐和科技领域。
数据集链接:
https://modelscope.cn/datasets/opencsg/chinese-cosmopedia
Infinity Instruct
指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,北京智源人工智能研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。
数据集链接:
https://modelscope.cn/datasets/BAAI/Infinity-Instruct
data-juicer-t2v-evolution-data-pool
Data-Juicer提出了一个专为集成数据模型共同开发而量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,可实现数据和模型的快速迭代和洞察力驱动的细化。Data-Juicer提出的“探测-分析-细化”工作流程已通过T2V-Turbo上的应用程序验证,并在VBench 排行榜上取得了新的最高水平,比 T2V-Turbo 提高了 1.52%。实验代码和模型已在Data-Juicer Sandbox上发布。
数据集链接:
https://modelscope.cn/datasets/Data-Juicer/data-juicer-t2v-evolution-data-pool
精选应用
通义千问2.5体验集
多语言、多领域升级版AI模型系列,具有卓越的文本生成、数学解答和编程能力。
体验直达:
https://modelscope.cn/studios/Qwen/Qwen2.5
GOT官方Demo
阶跃星辰GOT-OCR-2.0官方在线体验Demo,通过统一的端到端模型实现 OCR-2.0
可图AI试衣
可图大模型再进化,实现AI试衣自由!
社区精选文章
- 阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
- 魔搭社区@2024云栖大会全回顾
- 魔搭上新啦!智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
- 实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
- Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
- ModelScope魔搭9月版本发布月报
- 社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
- ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
- 社区供稿 | OpenCSG开源中文版fineweb edu数据集!
- Liger kernel训练加速,一行代码训练吞吐量提高 20%,显存使用量降低 60%
- 社区供稿 | Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型