魔搭社区每周速递(9.7-9.27)

简介: 182个模型、211个数据集、38个创新应用、6篇应用文章

image.png

🙋魔搭ModelScope本期社区进展:

📟6041个模型:GOT-OCR2.0、Qwen2.5系列、DeepSeek-V2.5、XVERSE-MoE-A36B等;

📁184个数据集:MMMLU、Omni-MATH、CCI3-Data、chinese-cosmopedia、Chinese Fineweb Edu Dataset、Infinity-Instruct、data-juicer-t2v-evolution-data-pool等;

🎨129个创新应用通义千问2.5体验集、GOT官方Demo、可图AI试衣等;

📄11篇文章:

  • 阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
  • 魔搭社区@2024云栖大会全回顾
  • 魔搭上新啦!智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
  • 实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
  • Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
  • ModelScope魔搭9月版本发布月报
  • 社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
  • ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
  • 社区供稿 | OpenCSG开源中文版fineweb edu数据集!
  • Liger kernel训练加速,一行代码训练吞吐量提高 20%,显存使用量降低 60%
  • 社区供稿 | Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型

精选模型

Qwen2.5系列

通义千问团队最新发布Qwen2.5系列,包括语言模型 Qwen2.5、专门针对编程的 Qwen2.5-Coder 和数学Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括:

  • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及72B。

模型合集链接:

https://modelscope.cn/models?name=Qwen2.5&page=1

代码示例:

以Qwen2.5-72B-Instruct为例,使用transformers推理

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

更多推理、微调实战教程详见:

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!

GOT-OCR2.0

阶跃星辰多模态团队开源的GOT-OCR2_0 以LLM为核心,对OCR技术提出更高要求,除文本识别外,还与多模态能力相结合,实现更为丰富的信息提取和理解。 该模型采用了Transformer结构,并结合了图像编码器、线性层和解码器三个模块。在预训练阶段,首先通过纯文本识别任务来预训练视觉编码器,然后连接一个更强大的解码器来进行多任务联合训练,以注入更多的OCR-2.0知识。最后,通过对解码器进行后训练,可以定制化新的OCR功能。

模型链接:

https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0

代码示例:

安装依赖:

!pip install verovio

模型推理:

from modelscope import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True)
model = AutoModel.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval().cuda()
# input your test image
image_file = '/mnt/workspace/58F3EF14-E073-4BBE-B9D9-53CCFE6AE183.png'
# plain texts OCR
res = model.chat(tokenizer, image_file, ocr_type='ocr')
# format texts OCR:
# res = model.chat(tokenizer, image_file, ocr_type='format')
# fine-grained OCR:
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='')
# multi-crop OCR:
# res = model.chat_crop(tokenizer, image_file, ocr_type='ocr')
# res = model.chat_crop(tokenizer, image_file, ocr_type='format')
# render the formatted OCR results:
# res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file = './demo.html')
print(res)

更多推理、微调实战教程详见:

阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!

DeepSeek-V2.5

DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本,新模型融合了前两个版本的通用能力和编码能力。

模型链接:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2.5

代码示例:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/DeepSeek-V2.5"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

XVERSE-MoE-A36B

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,本次开源的模型为底座模型 XVERSE-MoE-A36B,主要特点如下:

  • 模型结构:基于Decoder-only的Transformer架构,扩展FFN层为专家层,每个专家大小为标准FFN的1/4,并设有共享专家和非共享专家,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
  • 训练数据:使用包含40多种语言的高质量多样化数据进行训练,确保中英文表现优异,兼顾其他语言效果。训练样本长度为8K,并动态引入高质量数据。
  • 训练策略:调整学习率调度器以快速适应新数据。
  • 训练框架:优化MoE模型中的专家路由和权重计算,开发高效融合算子,提升计算效率;为解决MoE模型显存和通信挑战,设计了计算、通信和CPU-Offload的Overlap处理,提升吞吐量。

模型链接:

https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

代码示例:

可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理:

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

数据集推荐

MMMLU

OpenAI推出MMMLU多语言大规模多任务语言理解数据集,用于评估和提升人工智能模型在不同语言、认知和文化背景下的性能。它建立在广受欢迎的MMLU基准之上,包含57项涵盖广泛主题和难度级别的任务,涉及基础数学到复杂法律和物理问题。MMMLU支持阿拉伯语、德语、斯瓦希里语等14种语言,能评估模型在资源丰富和匮乏的语言上的表现。专业翻译人员确保数据集准确可靠,对于跨语言任务中的AI能力评估至关重要。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/MMMLU

Omni-MATH

人工智能领域的最新进展,尤其是大型语言模型 (LLM) 的进展,已导致数学推理能力取得重大突破。然而,现有的基准测试(如 GSM8K 或 MATH)现在已能以高精度解决(例如,OpenAI o1 在 MATH 数据集上实现了 94.8%),这表明它们不足以真正挑战这些模型。为了缓解这一限制,该项工作提出了一个全面且具有挑战性的基准测试,专门用于评估 LLM 在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准测试不同,数据集专注于数学,包含 4428 个竞赛级问题。这些问题被精心分为 33 个(可能更多)子领域,涵盖 10 个不同的难度级别,从而能够对不同数学学科和复杂程度的模型性能进行细致的分析。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/Omni-MATH

CCI3-Data

针对中文优质安全数据集稀缺的问题,北京智源人工智能研究院于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,近期,在此基础上继续扩充数据来源,采用更严格的数据清洗方法,完成CCI 3.0数据集的建设。该数据集由来自可信来源的高质量、可靠的互联网数据组成,经过严格的数据清洗去重,针对内容质量和安全进行了针对性的检测和过滤。数据处理规则包括:

  • 基于规则的过滤:基于关键字的安全过滤、垃圾信息过滤等。
  • 基于模型的过滤:通过训练分类模型过滤低质量内容
  • 重复数据删除:数据集内和数据集之间的重复数据删除

数据集链接:

https://modelscope.cn/datasets/BAAI/CCI3-Data

chinese-cosmopedia

中文宇宙百科数据集共包含 1500 万个词条,约 600 亿个 token。构建合成数据集的两个关键元素是种子数据和提示。种子数据决定生成内容的主题,提示则定义数据的风格(如教科书、故事、教程或少儿读物)。数据来源多样,包括中文维基百科、百度百科、知乎问答、技术博客等,确保内容的广度和权威性。生成的数据格式多样,如大学教科书、中学教科书、儿童故事、普通故事、WikiHow 风格的教程等。通过为每个种子数据生成多种风格,该数据集不仅适用于学术研究,还可广泛应用于教育、娱乐和科技领域。

数据集链接:

https://modelscope.cn/datasets/opencsg/chinese-cosmopedia

Infinity Instruct

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,北京智源人工智能研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

数据集链接:

https://modelscope.cn/datasets/BAAI/Infinity-Instruct

data-juicer-t2v-evolution-data-pool

Data-Juicer提出了一个专为集成数据模型共同开发而量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,可实现数据和模型的快速迭代和洞察力驱动的细化。Data-Juicer提出的“探测-分析-细化”工作流程已通过T2V-Turbo上的应用程序验证,并在VBench 排行榜上取得了新的最高水平,比 T2V-Turbo 提高了 1.52%。实验代码和模型已在Data-Juicer Sandbox上发布。

数据集链接:

https://modelscope.cn/datasets/Data-Juicer/data-juicer-t2v-evolution-data-pool

精选应用

通义千问2.5体验集

多语言、多领域升级版AI模型系列,具有卓越的文本生成、数学解答和编程能力。

体验直达:

https://modelscope.cn/studios/Qwen/Qwen2.5

image.png

GOT官方Demo

阶跃星辰GOT-OCR-2.0官方在线体验Demo,通过统一的端到端模型实现 OCR-2.0

image.png

可图AI试衣

可图大模型再进化,实现AI试衣自由!

image.png

社区精选文章

相关文章
|
4月前
|
人工智能 自然语言处理 文字识别
魔搭社区每周速递(8.18-8.24)
176个模型、35个数据集、85个创新应用、5篇应用文章
|
6天前
|
人工智能 自然语言处理 安全
魔搭社区每周速递(12.08-12.14)
魔搭ModelScope本期社区进展:新增1599个模型,46个数据集,67个创新应用,8篇内容
|
13天前
|
数据采集 人工智能 自然语言处理
魔搭社区每周速递(12.01-12.07)
本周新增1338个模型,82个数据集,26个创新应用,8篇内容
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区每周速递(7.20-7.26)
174个模型、44个数据集、70个创新应用、5篇应用文章
|
20天前
|
人工智能 自然语言处理 算法
魔搭社区每周速递(11.24-11.30)
魔搭ModelScope本期社区进展:1361个模型,29个数据集,44个创新应用,5 篇内容
|
26天前
|
人工智能 自然语言处理 物联网
魔搭社区每周速递(11.17-11.23)
魔搭ModelScope本期社区进展:923个模型,85个数据集,35个创新应用,7 篇内容
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区每周速递(10.27-11.09)
4221个模型、112个数据集、95个创新应用、14篇应用文章
|
2月前
|
人工智能 自然语言处理 搜索推荐
魔搭社区每周速递(10.20-10.26)
4848个模型、45个数据集、46个创新应用、7篇应用文章
|
1月前
|
文字识别 开发者
魔搭社区每周速递(11.10-11.16)
1435个模型、43个数据集、39个创新应用、7篇应用文章
|
2月前
|
人工智能 语音技术 决策智能
魔搭社区每周速递(9.28-10.12)
503个模型、189个数据集、82个创新应用、9篇应用文章
下一篇
DataWorks