🙋魔搭ModelScope本期社区进展:
📟174个模型:Mistral Large 2、Llama 3.1系列,DCLM-7B等;
📁44个数据集:PyTorch 预训练 CV 骨干网络集合、网易云音乐情感数据集、NuminaMath-CoT等;
🎨70个创新应用:Meta-Llama-3.1-405B-Instruct-FP8-demo、pdf转markdown效果测评工具、EchoMimic:语音驱动照片生成视频等;
📄5篇文章:
- Large Enough!Mistral Large 2开源!魔搭推理、微调最佳实战教程来啦!
- Meet Llama3.1,405B赶超最强闭源模型!上魔搭社区一站体验、下载、推理、微调、部署
- Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型
- 使用InternVL、LMDeploy和GTE搭建多模态RAG系统
- VBench 视频生成新榜首!Data-Juicer 沙盒实验室助力多模态数据与模型协同开发
精选模型推荐
Mistral Large 2
Mistral AI发布的Mistral-Large-Instruct 123B 规模的模型,在代码生成、数学和推理方面的能力显著增强。它还提供了更强大的多语言支持、Function Calling、Retrieval等能力。
Mistral Large 2 具有 128k 上下文窗口,支持法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语等数十种语言,以及 Python、Java、C、C++、JavaScript 和 Bash 等 80 多种编码语言。
模型链接:
https://modelscope.cn/models/LLM-Research/Mistral-Large-Instruct-2407?from=alizishequ__text
示例代码:
from transformers import pipeline from modelscope import snapshot_download model_dir=snapshot_download('LLM-Research/Mistral-Large-Instruct-2407', ignore_file_pattern=['^consolidated']) messages = [ {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"}, {"role": "user", "content": "Who are you?"}, ] chatbot = pipeline("text-generation", model=model_dir) chatbot(messages)
Llama 3.1系列
Llama 3.1,包含8B、70B 和405B三个规模,最大上下文提升到了128k。Llama系列模型是目前开源领域中用户最多、性能最强的大型模型系列之一。
1.共有8B、70B及405B三种版本,其中405B版本是目前最大的开源模型之一;
2.该模型最大参数规模达到4050亿参数,在性能上超越了现有的顶级AI模型;
3.模型引入了更长的上下文窗口(最长可达128K tokens),能够处理更复杂的任务和对话;
4. 支持多语言输入和输出,增强了模型的通用性和适用范围;
5.提高了推理能力,特别是在解决复杂数学问题和即时生成内容方面表现突出。
模型链接:
Llama-3.1-8B
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B
Llama-3.1-8B-Instruct
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B-Instruct
Llama-3.1-8B-Instruct-GGUF
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B-Instruct-GGUF
Llama-3.1-70B
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B
Llama-3.1-70B-Instruct
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B-Instruct
Llama-3.1-70B-Instruct-AWQ-INT4
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B-Instruct-AWQ-INT4
Llama-3.1-405B-Instruct-FP8
https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8
示例代码:
以Llama-3.1-8B-Instruct为例
import transformers import torch from modelscope import snapshot_download model_id = snapshot_download("LLM-Research/Meta-Llama-3.1-8B-Instruct") pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto", ) messages = [ {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"}, {"role": "user", "content": "Who are you?"}, ] outputs = pipeline( messages, max_new_tokens=256, ) print(outputs[0]["generated_text"][-1]
DCLM-7B
苹果发布了一个全新的语言模型训练数据集DCLM-Baseline 和 训练框架 DCLM,DCLM-Baseline-7B 是在 DCLM-Baseline 数据集上训练的 70 亿参数语言模型,该数据集是作为 DataComp for Language Models (DCLM) 基准测试的一部分进行策划的。该模型旨在展示系统数据管理技术在提高语言模型性能方面的有效性。
模型链接:
https://www.modelscope.cn/models/AI-ModelScope/DCLM-7B?from=alizishequ__text
示例代码:
from open_lm.hf import * from modelscope import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("AI-ModelScope/DCLM-7B") model = AutoModelForCausalLM.from_pretrained("AI-ModelScope/DCLM-7B",torch_dtype=torch.float16, device_map="cuda") inputs = tokenizer(["中国是"], return_tensors="pt").to("cuda") gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1} output = model.generate(inputs['input_ids'], **gen_kwargs) output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True) print(output)
数据集推荐
PyTorch 预训练 CV 骨干网络集合
本仓库汇聚了 PyTorch 官方网站上所有机器视觉预训练模型的骨干网络集合。主要包括在 ImageNet1K 数据集上进行预训练的多种卷积神经网络(CNN)和 Vision Transformer 等视觉模型。整个集合被划分为 V1 和 V2 两个子集,涵盖了多个经典和先进的视觉模型版本。这些预训练骨干网络为用户提供了在图像识别、目标检测、图像分割等任务中进行迁移学习的强大基础。同时,它也为研究者和从业者在不同场景中灵活应用这些预训练模型提供了便捷的选择。
数据集链接:
https://www.modelscope.cn/datasets/monetjoe/cv_backbones?from=alizishequ__text
网易云音乐情感数据集
网易云音乐情感分类数据集包含约 395,000 条音乐情感标签数据,其中每条数据由歌曲ID、歌单ID和歌曲的情感标签三个主要列组成。这些数据的来源是网易云音乐官方网站,提供了对歌曲情感进行标记的详尽信息。歌曲 ID 唯一标识每首歌曲,而歌单 ID 表示歌曲所属歌单。情感标签为每首歌曲赋予了情感上的分类标签,使得研究者和数据科学家能够深入探讨音乐情感分析的领域。由于数据集规模较大,适用于构建情感分析模型、进行数据挖掘,并深入理解音乐与情感之间的关联。
数据集链接:
https://www.modelscope.cn/datasets/monetjoe/music163_emo?from=alizishequ__text
NuminaMath-CoT
大约 860k 个数学问题,其中每个解决方案都以思维链 (CoT) 方式进行格式化。数据集的来源范围从中国高中数学练习到美国和国际数学奥林匹克竞赛问题。数据主要来自在线试卷PDF和数学论坛。处理步骤包括 (a) 原始 PDF 的 OCR,(b) 分割成问题-解决方案对,(c) 翻译成英文,(d) 重新对齐以生成 CoT 推理格式,以及 (e) 最终答案格式。
数据集链接:
https://www.modelscope.cn/datasets/AI-ModelScope/NuminaMath-CoT?from=alizishequ__text
精选应用推荐
Meta-Llama-3.1-405B-Instruct-FP8-demo
支持多语言输入和输出,增强了模型的通用性和适用范围,推理能力提高,特别是在解决复杂数学问题和即时生成内容方面表现突出。
pdf转markdown效果测评工具
内置几款pdf转markdown工具(后续逐步增加),从段落、标题、表格和公式四个维度评价markdown文档的相似性,当前界面暂仅支持两张markdown文档之间对比
体验直达:https://www.modelscope.cn/studios/zhangtao15/markdown_tester?from=alizishequ__text
EchoMimic:语音驱动照片生成视频
EchoMimic不仅能利用照片,通过音频或面部特征点单独生成肖像视频,还能通过音频和选定的面部特征点的结合来生成肖像视频。
示例效果:
体验直达:https://www.modelscope.cn/studios/BadToBest/BadToBest?from=alizishequ__text