魔搭社区每周速递（7.20-7.26）

2024-07-29 92

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 174个模型、44个数据集、70个创新应用、5篇应用文章

🙋魔搭ModelScope本期社区进展：

📟174个模型：Mistral Large 2、Llama 3.1系列，DCLM-7B等；

📁44个数据集：PyTorch 预训练 CV 骨干网络集合、网易云音乐情感数据集、NuminaMath-CoT等；

🎨70个创新应用：Meta-Llama-3.1-405B-Instruct-FP8-demo、pdf转markdown效果测评工具、EchoMimic：语音驱动照片生成视频等；

📄5篇文章：

Large Enough！Mistral Large 2开源！魔搭推理、微调最佳实战教程来啦！
Meet Llama3.1，405B赶超最强闭源模型！上魔搭社区一站体验、下载、推理、微调、部署
Llama3.1-8B模型中文版！OpenBuddy发布新一代跨语言模型
使用InternVL、LMDeploy和GTE搭建多模态RAG系统
VBench 视频生成新榜首！Data-Juicer 沙盒实验室助力多模态数据与模型协同开发

精选模型推荐

Mistral Large 2

Mistral AI发布的Mistral-Large-Instruct 123B 规模的模型，在代码生成、数学和推理方面的能力显著增强。它还提供了更强大的多语言支持、Function Calling、Retrieval等能力。

Mistral Large 2 具有 128k 上下文窗口，支持法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语等数十种语言，以及 Python、Java、C、C++、JavaScript 和 Bash 等 80 多种编码语言。

模型链接：

https://modelscope.cn/models/LLM-Research/Mistral-Large-Instruct-2407?from=alizishequ__text

示例代码：

from transformers import pipeline
from modelscope import snapshot_download
model_dir=snapshot_download('LLM-Research/Mistral-Large-Instruct-2407', ignore_file_pattern=['^consolidated'])
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
chatbot = pipeline("text-generation", model=model_dir)
chatbot(messages)

Llama 3.1系列

Llama 3.1，包含8B、70B 和405B三个规模，最大上下文提升到了128k。Llama系列模型是目前开源领域中用户最多、性能最强的大型模型系列之一。

1.共有8B、70B及405B三种版本，其中405B版本是目前最大的开源模型之一；

2.该模型最大参数规模达到4050亿参数，在性能上超越了现有的顶级AI模型；

3.模型引入了更长的上下文窗口（最长可达128K tokens），能够处理更复杂的任务和对话；

4. 支持多语言输入和输出，增强了模型的通用性和适用范围；

5.提高了推理能力，特别是在解决复杂数学问题和即时生成内容方面表现突出。

模型链接：

Llama-3.1-8B

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B

Llama-3.1-8B-Instruct

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B-Instruct

Llama-3.1-8B-Instruct-GGUF

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B-Instruct-GGUF

Llama-3.1-70B

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B

Llama-3.1-70B-Instruct

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B-Instruct

Llama-3.1-70B-Instruct-AWQ-INT4

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-70B-Instruct-AWQ-INT4

Llama-3.1-405B-Instruct-FP8

https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8

示例代码：

以Llama-3.1-8B-Instruct为例

import transformers
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Meta-Llama-3.1-8B-Instruct")
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1]

DCLM-7B

苹果发布了一个全新的语言模型训练数据集DCLM-Baseline 和训练框架 DCLM，DCLM-Baseline-7B 是在 DCLM-Baseline 数据集上训练的 70 亿参数语言模型，该数据集是作为 DataComp for Language Models （DCLM）基准测试的一部分进行策划的。该模型旨在展示系统数据管理技术在提高语言模型性能方面的有效性。

模型链接：

https://www.modelscope.cn/models/AI-ModelScope/DCLM-7B?from=alizishequ__text

示例代码：

from open_lm.hf import *
from modelscope import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("AI-ModelScope/DCLM-7B")
model = AutoModelForCausalLM.from_pretrained("AI-ModelScope/DCLM-7B",torch_dtype=torch.float16, device_map="cuda")
inputs = tokenizer(["中国是"], return_tensors="pt").to("cuda")
gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1}
output = model.generate(inputs['input_ids'], **gen_kwargs)
output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True)
print(output)

数据集推荐

PyTorch 预训练 CV 骨干网络集合

本仓库汇聚了 PyTorch 官方网站上所有机器视觉预训练模型的骨干网络集合。主要包括在 ImageNet1K 数据集上进行预训练的多种卷积神经网络（CNN）和 Vision Transformer 等视觉模型。整个集合被划分为 V1 和 V2 两个子集，涵盖了多个经典和先进的视觉模型版本。这些预训练骨干网络为用户提供了在图像识别、目标检测、图像分割等任务中进行迁移学习的强大基础。同时，它也为研究者和从业者在不同场景中灵活应用这些预训练模型提供了便捷的选择。

数据集链接：

https://www.modelscope.cn/datasets/monetjoe/cv_backbones?from=alizishequ__text

网易云音乐情感数据集

网易云音乐情感分类数据集包含约 395,000 条音乐情感标签数据，其中每条数据由歌曲ID、歌单ID和歌曲的情感标签三个主要列组成。这些数据的来源是网易云音乐官方网站，提供了对歌曲情感进行标记的详尽信息。歌曲 ID 唯一标识每首歌曲，而歌单 ID 表示歌曲所属歌单。情感标签为每首歌曲赋予了情感上的分类标签，使得研究者和数据科学家能够深入探讨音乐情感分析的领域。由于数据集规模较大，适用于构建情感分析模型、进行数据挖掘，并深入理解音乐与情感之间的关联。

数据集链接：

https://www.modelscope.cn/datasets/monetjoe/music163_emo?from=alizishequ__text

NuminaMath-CoT

大约 860k 个数学问题，其中每个解决方案都以思维链（CoT）方式进行格式化。数据集的来源范围从中国高中数学练习到美国和国际数学奥林匹克竞赛问题。数据主要来自在线试卷PDF和数学论坛。处理步骤包括（a）原始 PDF 的 OCR，（b）分割成问题-解决方案对，（c）翻译成英文，（d）重新对齐以生成 CoT 推理格式，以及（e）最终答案格式。

数据集链接：

https://www.modelscope.cn/datasets/AI-ModelScope/NuminaMath-CoT?from=alizishequ__text

精选应用推荐

Meta-Llama-3.1-405B-Instruct-FP8-demo

支持多语言输入和输出，增强了模型的通用性和适用范围，推理能力提高，特别是在解决复杂数学问题和即时生成内容方面表现突出。

体验直达：https://www.modelscope.cn/studios/LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8-demo?from=alizishequ__text

pdf转markdown效果测评工具

内置几款pdf转markdown工具（后续逐步增加），从段落、标题、表格和公式四个维度评价markdown文档的相似性，当前界面暂仅支持两张markdown文档之间对比

体验直达：https://www.modelscope.cn/studios/zhangtao15/markdown_tester?from=alizishequ__text

EchoMimic：语音驱动照片生成视频

EchoMimic不仅能利用照片，通过音频或面部特征点单独生成肖像视频，还能通过音频和选定的面部特征点的结合来生成肖像视频。

示例效果：

体验直达：https://www.modelscope.cn/studios/BadToBest/BadToBest?from=alizishequ__text

魔搭社区每周速递（7.20-7.26）

精选模型推荐

Mistral Large 2

Llama 3.1系列

DCLM-7B

数据集推荐

PyTorch 预训练 CV 骨干网络集合

网易云音乐情感数据集

NuminaMath-CoT

精选应用推荐

Meta-Llama-3.1-405B-Instruct-FP8-demo

pdf转markdown效果测评工具

EchoMimic：语音驱动照片生成视频

社区精选文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

魔搭社区每周速递（7.20-7.26）

精选模型推荐

Mistral Large 2

Llama 3.1系列

DCLM-7B

数据集推荐

PyTorch 预训练 CV 骨干网络集合

网易云音乐情感数据集

NuminaMath-CoT

精选应用推荐

Meta-Llama-3.1-405B-Instruct-FP8-demo

pdf转markdown效果测评工具

EchoMimic：语音驱动照片生成视频

社区精选文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景