魔搭社区每周速递(9.7-9.27)

简介: 182个模型、211个数据集、38个创新应用、6篇应用文章

image.png

🙋魔搭ModelScope本期社区进展:

📟6041个模型:GOT-OCR2.0、Qwen2.5系列、DeepSeek-V2.5、XVERSE-MoE-A36B等;

📁184个数据集:MMMLU、Omni-MATH、CCI3-Data、chinese-cosmopedia、Chinese Fineweb Edu Dataset、Infinity-Instruct、data-juicer-t2v-evolution-data-pool等;

🎨129个创新应用通义千问2.5体验集、GOT官方Demo、可图AI试衣等;

📄11篇文章:

  • 阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
  • 魔搭社区@2024云栖大会全回顾
  • 魔搭上新啦!智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
  • 实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
  • Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
  • ModelScope魔搭9月版本发布月报
  • 社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
  • ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
  • 社区供稿 | OpenCSG开源中文版fineweb edu数据集!
  • Liger kernel训练加速,一行代码训练吞吐量提高 20%,显存使用量降低 60%
  • 社区供稿 | Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型

精选模型

Qwen2.5系列

通义千问团队最新发布Qwen2.5系列,包括语言模型 Qwen2.5、专门针对编程的 Qwen2.5-Coder 和数学Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括:

  • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及72B。

模型合集链接:

https://modelscope.cn/models?name=Qwen2.5&page=1

代码示例:

以Qwen2.5-72B-Instruct为例,使用transformers推理

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

更多推理、微调实战教程详见:

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!

GOT-OCR2.0

阶跃星辰多模态团队开源的GOT-OCR2_0 以LLM为核心,对OCR技术提出更高要求,除文本识别外,还与多模态能力相结合,实现更为丰富的信息提取和理解。 该模型采用了Transformer结构,并结合了图像编码器、线性层和解码器三个模块。在预训练阶段,首先通过纯文本识别任务来预训练视觉编码器,然后连接一个更强大的解码器来进行多任务联合训练,以注入更多的OCR-2.0知识。最后,通过对解码器进行后训练,可以定制化新的OCR功能。

模型链接:

https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0

代码示例:

安装依赖:

!pip install verovio

模型推理:

from modelscope import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True)
model = AutoModel.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval().cuda()
# input your test image
image_file = '/mnt/workspace/58F3EF14-E073-4BBE-B9D9-53CCFE6AE183.png'
# plain texts OCR
res = model.chat(tokenizer, image_file, ocr_type='ocr')
# format texts OCR:
# res = model.chat(tokenizer, image_file, ocr_type='format')
# fine-grained OCR:
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='')
# multi-crop OCR:
# res = model.chat_crop(tokenizer, image_file, ocr_type='ocr')
# res = model.chat_crop(tokenizer, image_file, ocr_type='format')
# render the formatted OCR results:
# res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file = './demo.html')
print(res)

更多推理、微调实战教程详见:

阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!

DeepSeek-V2.5

DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本,新模型融合了前两个版本的通用能力和编码能力。

模型链接:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2.5

代码示例:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/DeepSeek-V2.5"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

XVERSE-MoE-A36B

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,本次开源的模型为底座模型 XVERSE-MoE-A36B,主要特点如下:

  • 模型结构:基于Decoder-only的Transformer架构,扩展FFN层为专家层,每个专家大小为标准FFN的1/4,并设有共享专家和非共享专家,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
  • 训练数据:使用包含40多种语言的高质量多样化数据进行训练,确保中英文表现优异,兼顾其他语言效果。训练样本长度为8K,并动态引入高质量数据。
  • 训练策略:调整学习率调度器以快速适应新数据。
  • 训练框架:优化MoE模型中的专家路由和权重计算,开发高效融合算子,提升计算效率;为解决MoE模型显存和通信挑战,设计了计算、通信和CPU-Offload的Overlap处理,提升吞吐量。

模型链接:

https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

代码示例:

可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理:

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

数据集推荐

MMMLU

OpenAI推出MMMLU多语言大规模多任务语言理解数据集,用于评估和提升人工智能模型在不同语言、认知和文化背景下的性能。它建立在广受欢迎的MMLU基准之上,包含57项涵盖广泛主题和难度级别的任务,涉及基础数学到复杂法律和物理问题。MMMLU支持阿拉伯语、德语、斯瓦希里语等14种语言,能评估模型在资源丰富和匮乏的语言上的表现。专业翻译人员确保数据集准确可靠,对于跨语言任务中的AI能力评估至关重要。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/MMMLU

Omni-MATH

人工智能领域的最新进展,尤其是大型语言模型 (LLM) 的进展,已导致数学推理能力取得重大突破。然而,现有的基准测试(如 GSM8K 或 MATH)现在已能以高精度解决(例如,OpenAI o1 在 MATH 数据集上实现了 94.8%),这表明它们不足以真正挑战这些模型。为了缓解这一限制,该项工作提出了一个全面且具有挑战性的基准测试,专门用于评估 LLM 在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准测试不同,数据集专注于数学,包含 4428 个竞赛级问题。这些问题被精心分为 33 个(可能更多)子领域,涵盖 10 个不同的难度级别,从而能够对不同数学学科和复杂程度的模型性能进行细致的分析。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/Omni-MATH

CCI3-Data

针对中文优质安全数据集稀缺的问题,北京智源人工智能研究院于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,近期,在此基础上继续扩充数据来源,采用更严格的数据清洗方法,完成CCI 3.0数据集的建设。该数据集由来自可信来源的高质量、可靠的互联网数据组成,经过严格的数据清洗去重,针对内容质量和安全进行了针对性的检测和过滤。数据处理规则包括:

  • 基于规则的过滤:基于关键字的安全过滤、垃圾信息过滤等。
  • 基于模型的过滤:通过训练分类模型过滤低质量内容
  • 重复数据删除:数据集内和数据集之间的重复数据删除

数据集链接:

https://modelscope.cn/datasets/BAAI/CCI3-Data

chinese-cosmopedia

中文宇宙百科数据集共包含 1500 万个词条,约 600 亿个 token。构建合成数据集的两个关键元素是种子数据和提示。种子数据决定生成内容的主题,提示则定义数据的风格(如教科书、故事、教程或少儿读物)。数据来源多样,包括中文维基百科、百度百科、知乎问答、技术博客等,确保内容的广度和权威性。生成的数据格式多样,如大学教科书、中学教科书、儿童故事、普通故事、WikiHow 风格的教程等。通过为每个种子数据生成多种风格,该数据集不仅适用于学术研究,还可广泛应用于教育、娱乐和科技领域。

数据集链接:

https://modelscope.cn/datasets/opencsg/chinese-cosmopedia

Infinity Instruct

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,北京智源人工智能研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

数据集链接:

https://modelscope.cn/datasets/BAAI/Infinity-Instruct

data-juicer-t2v-evolution-data-pool

Data-Juicer提出了一个专为集成数据模型共同开发而量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,可实现数据和模型的快速迭代和洞察力驱动的细化。Data-Juicer提出的“探测-分析-细化”工作流程已通过T2V-Turbo上的应用程序验证,并在VBench 排行榜上取得了新的最高水平,比 T2V-Turbo 提高了 1.52%。实验代码和模型已在Data-Juicer Sandbox上发布。

数据集链接:

https://modelscope.cn/datasets/Data-Juicer/data-juicer-t2v-evolution-data-pool

精选应用

通义千问2.5体验集

多语言、多领域升级版AI模型系列,具有卓越的文本生成、数学解答和编程能力。

体验直达:

https://modelscope.cn/studios/Qwen/Qwen2.5

image.png

GOT官方Demo

阶跃星辰GOT-OCR-2.0官方在线体验Demo,通过统一的端到端模型实现 OCR-2.0

image.png

可图AI试衣

可图大模型再进化,实现AI试衣自由!

image.png

社区精选文章

相关文章
|
21天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
17天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2562 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
15天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
13天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
17天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1556 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
19天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
823 14
|
14天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
619 7
|
7天前
|
Docker 容器
Docker操作 (五)
Docker操作 (五)
165 69
|
7天前
|
Docker 容器
Docker操作 (三)
Docker操作 (三)
164 69
|
19天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
624 52
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界