魔搭社区每周速递(7.13-7.19)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭社区每周速递(7.13-7.19)

魔搭ModelScope本周带来:

25个模型:LlaMA 2模型、PolyLM多语言文本生成模型、Semantic Speaker Turn Detection 模型、孙思邈中文医疗大模型 等;

6个数据集:ms_hackathon_23_agent_train_dev、CValues-Comparison 中文大模型价值观比较数据集等;

3个创新应用:音视频转录、RWKV-4-Music、Fugl-Meyer康复测评;

3篇文章:ChatGLM2-6B模型发布及魔搭最佳实践、Stable Diffusion模型魔搭最佳实践:训一只你的萌柯基、LLaMA 2系列来啦!内含魔搭最佳实践;

精选模型推荐

LLaMA 2模型

Llama 2 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来适应人类对有用性和安全性的偏好。

示例代码

import torch
from modelscope import snapshot_download, Model
from modelscope.models.nlp.llama2 import Llama2Tokenizer
model_dir = snapshot_download("modelscope/Llama-2-7b-ms", revision='v1.0.1', 
                              ignore_file_pattern = [r'\w+\.safetensors'])
model = Model.from_pretrained(model_dir, device_map='auto', torch_dtype=torch.float16)
tokenizer = Llama2Tokenizer.from_pretrained(model_dir)
prompt = "Hey, are you conscious? Can you talk to me?"
inputs = tokenizer(prompt, return_tensors="pt")
# Generate
generate_ids = model.generate(inputs.input_ids, max_length=30)
print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])


image.png

PolyLM多语言文本生成模型

PolyLM是一个通晓多语言语言的大规模语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18个语言。该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,从而为跨语言、文化的交流提供便利。

通过 Transformers 加载

from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaTokenizer
from pathlib import Path
ckpt_path = Path("damo/nlp_polylm_13b_text_generation")
tokenizer = LlamaTokenizer.from_pretrained(str(ckpt_path))
model = AutoModelForCausalLM.from_pretrained(
    str(ckpt_path),
    device_map="auto",
)
s = """候选属性:鞋跟高度, 下摆类型, 工艺, 裙长, 腰型, 图案, 开衩类型, 风格, 领型, 版型, 鞋帮高度, 裤长, 裤型, 适用季节, 厚度, 弹性, 形状, 开口深度, 靴筒高度, 颜色, 闭合方式, 材质, 袖长, 鞋头款式, 袖型, 口袋类型
商品标题:HC圆领拼接连衣裙
NER抽取结果:领型=圆领,风格=拼接
商品标题:暗格格纹纹路搭配磨砂表面
NER抽取结果:图案=格纹,材质=磨砂
商品标题:充满童趣的史努比造型以提花工艺呈现于杏色衣身
NER抽取结果:工艺=提花,颜色=杏色
商品标题:HAZZYS修身羊毛衫
NER抽取结果:"""
inputs = tokenizer(s, return_tensors="pt")
generate_ids = model.generate(
    inputs.input_ids, 
    attention_mask=inputs.attention_mask, 
    do_sample=True, 
    max_new_tokens=128, 
    top_k=10, 
    top_p=0.9, 
    temperature=0.7, 
    repetition_penalty=1.0, 
    num_return_sequences=5)
decoded = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(f">>> {decoded}")

孙思邈中文医疗大模型

Sunsimiao是由baichuan-7B在10w条高质量的中医药数据中通过qlora微调而得, 后续将收集更多数据, 扩充模型能力, 会不断迭代更新。

示例代码

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
pipe = pipeline(task=Tasks.text_generation, model='AI-ModelScope/Sunsimiao', model_revision='v1.0.0')
query = '小孩发烧了怎么办?'
prompt="Below is an instruction that describes a task. Write a response that appropriately completes the request."
prompt+="### Instruction:\n{}\n\n### Response:\n".format(query)
result = pipe(prompt)
print(result)

精选应用推荐

RWKV-4-Music

链接:https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

介绍:RWKV-4-Music属于音乐的生成模型 . RWKV由100% RNN语言模型驱动. 是迄今为止唯一可以在质量和缩放上匹配Transformer的RNN, 同时速度更快, 节省VRAM

image.png

音视频转录

链接:https://modelscope.cn/studios/glt3953/app-audio_video_transcribe/summary

介绍:您只需要上传一段音频或视频文件,我们的服务会快速对其进行语音识别,然后生成相应的文字和字幕。这样,您就可以轻松地记录下重要的语音内容,或者为视频添加精准的字幕。现在就来试试我们的音视频转录服务吧,让您的生活和工作更加便捷!

image.png

Fugl-Meyer康复测评

链接:https://modelscope.cn/studios/wanghongsheng/test_space3/summary

介绍:针对Fugl-Meyer量表中总结出了五套测试动作,对输入视频进行测试项预测,并返回测试评分

image.png

相关文章
|
1月前
|
机器学习/深度学习 计算机视觉
顶会速递 | CVPR 2024 魔搭社区模型/创空间盘点(一)
魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点
|
9月前
|
人工智能 自然语言处理 安全
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
927 0
|
1月前
|
人工智能 自然语言处理 开发者
书生·浦语2.0开源,阿里云魔搭首发
书生·浦语2.0开源,阿里云魔搭首发
89 0
|
7月前
|
数据可视化 测试技术 PyTorch
昆仑万维「天工」Skywork-13B魔搭社区首发开源!魔搭最佳实践来了!
作为国内最具诚意的开源百亿大模型,「天工」Skywork-13B系列无需申请即可实现商用,授权链路极简,且无用户数、行业、公司规模限制。
|
9月前
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
|
1月前
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
6月前
|
人工智能 搜索推荐 物联网
文生视频黑马AnimateDiff 魔搭社区最佳实践教程来啦!
近1个月来,AnimateDiff 无疑是AI动画/视频生成领域的一匹黑马,以“效果丝滑、稳定、无闪烁”等好评斩获“Stable Diffusion封神插件”称号。
|
7月前
|
人工智能 算法 数据处理
零一万物发布首款大模型,阿里云魔搭社区开源首发
零一万物发布首款大模型,阿里云魔搭社区开源首发
236 0
|
9月前
|
人工智能 自然语言处理 安全
书生·浦语20B模型在阿里云魔搭开源首发!
书生·浦语20B模型在阿里云魔搭开源首发!
173 0
|
9月前
|
前端开发 程序员