魔搭社区每周速递（8.18-8.24）

2024-08-26 119 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 176个模型、35个数据集、85个创新应用、5篇应用文章

🙋魔搭ModelScope本期社区进展：

📟176个模型：Phi-3.5系列、Peach-9B-8k-Roleplay等；

📁35个数据集：CNN_DailyMail、webglm-qa、LVBench等；

🎨85个创新应用：Qwen-Math-demo、GPT-SoVITS V2 在线语音生成（中日英韩粤）、文墨启名等；

📄5篇文章：

我们给大模型去掉了“AI味”-大模型微调全链路实战
社区供稿 | 新版本源2.0大模型发布：Yuan2-2B-July-hf
FLUX第二弹！FLUX-GGUF量化，免费大碗的FLUX-API来了！
多图理解，更懂中文，支持function call的Phi-3.5来了！
FLUX第三弹：直面天命，FLUX.1-LoRA/IP-adapter「黑神话：悟空」生图实战

精选模型

Phi-3.5系列

微软发布并开源了Phi-3.5系列小型语言模型，包括三个版本：

Mini型：Phi-3.5-mini-instruct（3.8B参数），基于高质量数据集训练，支持128K token上下文，在中文场景有所增强。
MoE型：Phi-3.5-MoE-instruct（16x3.8B参数），使用 2 位专家时有 6.6B 个活动参数，使用词汇量为 32,064 的标记器，增强数学逻辑推理能力，适用于function call场景。
多模态型：Phi-3.5-vision-instruct（4.2B参数），集成图像编码器与语言模型，支持128K token上下文，擅长处理多图理解任务，在图像理解、OCR、图表分析及多图比较等领域表现出色，并能生成多图像或视频片段摘要。

此外，魔搭社区已上线Phi-3.5-mini-instruct-GGUF，便于用户使用如ollama、llama.cpp等工具。

模型链接：

Phi-3.5-mini-instruct：

https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct

Phi-3.5-MoE-instruct：

https://modelscope.cn/models/LLM-Research/Phi-3.5-MoE-instruct

Phi-3.5-vision-instruct ：

https://modelscope.cn/models/LLM-Research/Phi-3.5-vision-instruct

Phi-3.5-mini-instruct-GGUF：

https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct-GGUF

代码示例：

以Phi-3.5-mini-instruct为例

import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer
from transformers import pipeline
torch.random.manual_seed(0)
model = AutoModelForCausalLM.from_pretrained(
    "LLM-Research/Phi-3.5-mini-instruct", 
    device_map="cuda", 
    torch_dtype="auto", 
    trust_remote_code=True, 
)
tokenizer = AutoTokenizer.from_pretrained("LLM-Research/Phi-3.5-mini-instruct")
messages = "<|system|>\n 你是我的人工智能助手，协助我用中文解答问题.\n<|end|><|user|>\n 你知道长沙吗？? \n<|end|><|assistant|>"
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
)
generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False,
    "temperature": 0.0,
    "do_sample": False,
}
output = pipe(messages, **generation_args)
print(output[0]['generated_text'])

更多实战教程详见：

多图理解，更懂中文，支持function call的Phi-3.5来了！

Peach-9B-8k-Roleplay

Peach-9B-8k-Roleplay 是通过对 01-ai/Yi-1.5-9B 模型进行微调，通过数据合成方法创建的 100K 多对话获得的聊天大型语言模型。

模型链接：

https://www.modelscope.cn/models/roleplay/Peach-9B-8k-Roleplay

代码示例：

使用的 Transformer 版本如下

torch==1.13.1
gradio==3.50.2
transformers==4.37.2

代码推理：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "ClosedCharacter/Peach-9B-8k-Roleplay"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path, torch_dtype=torch.bfloat16, 
    trust_remote_code=True, device_map="auto")
messages = [
    {"role": "system", "content": "你是黑丝御姐"},
    {"role": "user", "content": "你好，你是谁"},
]
input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, return_tensors="pt")
output = model.generate(
    inputs=input_ids.to("cuda"), 
    temperature=0.3, 
    top_p=0.5, 
    no_repeat_ngram_size=6,
    repetition_penalty=1.1,
    max_new_tokens=512)
print(tokenizer.decode(output[0]))

数据集推荐

CNN_DailyMail

CNN_DailyMail 数据集是一个英语数据集，其中包含 CNN 和每日邮报的记者撰写的 300k 多篇独特新闻文章。当前版本支持提取式和抽象式摘要，尽管原始版本是为机器阅读和理解以及抽象问答而创建的。

数据集链接：

https://www.modelscope.cn/datasets/dahaizei/cnn_dailymail

webglm-qa

WebGLM-QA 是用于训练 WebGLM 生成器模块的数据集。它包含 43,579 个用于列车分割的高质量数据样本、1,000 个用于验证分割的数据样本和 400 个用于测试分割的高质量数据样本。

数据集链接：

https://www.modelscope.cn/datasets/ZhipuAI/webglm-qa

LVBench

LVBench 是一个基准测试，旨在评估模型在理解长视频方面的能力。我们收集了来自公共来源的大量长视频数据，通过手动工作和模型辅助的混合进行注释。我们 Benchmark 为在扩展的时间上下文上测试模型提供了坚实的基础，确保了高质量通过细致的人工注释和多阶段质量控制进行评估。

数据集链接：

https://www.modelscope.cn/datasets/ZhipuAI/LVBench

精选应用

Qwen-Math-demo

Qwen-Math-demo是一个专注于数学问题解答的演示项目，它集成了先进的自然语言处理技术，特别是针对数学语言的理解和生成。这个工具能够解析和解决各种数学问题，从基础的算术运算到更复杂的代数和微积分问题。

体验直达：

https://www.modelscope.cn/studios/qwen/Qwen-Math-demo

GPT-SoVITS V2 在线语音生成（中日英韩粤）

一款支持多语言的在线语音生成创空间应用

体验直达：

https://www.modelscope.cn/studios/xzjosh/GPT-SoVITS-V2

文墨启名

InkInspire Names是一款创新的AI应用，它利用中国古典文学和RAG技术，为用户生成富有文化内涵的宝宝名字。通过融合中国传统文化元素与现代科技手段，InkInspire Names旨在帮助每一位父母找到最适合自己宝宝的名字，让每个名字都成为独一无二的故事起点。

体验直达：

https://www.modelscope.cn/studios/yvcheng/InkInspire_Names

魔搭社区每周速递（8.18-8.24）

精选模型

数据集推荐

精选应用

社区精选文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

魔搭社区每周速递（8.18-8.24）

精选模型

数据集推荐

精选应用

社区精选文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景