魔搭社区每周速递(7.13-7.19)

简介: 魔搭社区每周速递(7.13-7.19)

魔搭ModelScope本周带来:

25个模型:LlaMA 2模型、PolyLM多语言文本生成模型、Semantic Speaker Turn Detection 模型、孙思邈中文医疗大模型 等;

6个数据集:ms_hackathon_23_agent_train_dev、CValues-Comparison 中文大模型价值观比较数据集等;

3个创新应用:音视频转录、RWKV-4-Music、Fugl-Meyer康复测评;

3篇文章:ChatGLM2-6B模型发布及魔搭最佳实践、Stable Diffusion模型魔搭最佳实践:训一只你的萌柯基、LLaMA 2系列来啦!内含魔搭最佳实践;

精选模型推荐

LLaMA 2模型

Llama 2 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来适应人类对有用性和安全性的偏好。

示例代码

import torch
from modelscope import snapshot_download, Model
from modelscope.models.nlp.llama2 import Llama2Tokenizer
model_dir = snapshot_download("modelscope/Llama-2-7b-ms", revision='v1.0.1', 
                              ignore_file_pattern = [r'\w+\.safetensors'])
model = Model.from_pretrained(model_dir, device_map='auto', torch_dtype=torch.float16)
tokenizer = Llama2Tokenizer.from_pretrained(model_dir)
prompt = "Hey, are you conscious? Can you talk to me?"
inputs = tokenizer(prompt, return_tensors="pt")
# Generate
generate_ids = model.generate(inputs.input_ids, max_length=30)
print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])


image.png

PolyLM多语言文本生成模型

PolyLM是一个通晓多语言语言的大规模语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18个语言。该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,从而为跨语言、文化的交流提供便利。

通过 Transformers 加载

from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaTokenizer
from pathlib import Path
ckpt_path = Path("damo/nlp_polylm_13b_text_generation")
tokenizer = LlamaTokenizer.from_pretrained(str(ckpt_path))
model = AutoModelForCausalLM.from_pretrained(
    str(ckpt_path),
    device_map="auto",
)
s = """候选属性:鞋跟高度, 下摆类型, 工艺, 裙长, 腰型, 图案, 开衩类型, 风格, 领型, 版型, 鞋帮高度, 裤长, 裤型, 适用季节, 厚度, 弹性, 形状, 开口深度, 靴筒高度, 颜色, 闭合方式, 材质, 袖长, 鞋头款式, 袖型, 口袋类型
商品标题:HC圆领拼接连衣裙
NER抽取结果:领型=圆领,风格=拼接
商品标题:暗格格纹纹路搭配磨砂表面
NER抽取结果:图案=格纹,材质=磨砂
商品标题:充满童趣的史努比造型以提花工艺呈现于杏色衣身
NER抽取结果:工艺=提花,颜色=杏色
商品标题:HAZZYS修身羊毛衫
NER抽取结果:"""
inputs = tokenizer(s, return_tensors="pt")
generate_ids = model.generate(
    inputs.input_ids, 
    attention_mask=inputs.attention_mask, 
    do_sample=True, 
    max_new_tokens=128, 
    top_k=10, 
    top_p=0.9, 
    temperature=0.7, 
    repetition_penalty=1.0, 
    num_return_sequences=5)
decoded = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(f">>> {decoded}")

孙思邈中文医疗大模型

Sunsimiao是由baichuan-7B在10w条高质量的中医药数据中通过qlora微调而得, 后续将收集更多数据, 扩充模型能力, 会不断迭代更新。

示例代码

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
pipe = pipeline(task=Tasks.text_generation, model='AI-ModelScope/Sunsimiao', model_revision='v1.0.0')
query = '小孩发烧了怎么办?'
prompt="Below is an instruction that describes a task. Write a response that appropriately completes the request."
prompt+="### Instruction:\n{}\n\n### Response:\n".format(query)
result = pipe(prompt)
print(result)

精选应用推荐

RWKV-4-Music

链接:https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

介绍:RWKV-4-Music属于音乐的生成模型 . RWKV由100% RNN语言模型驱动. 是迄今为止唯一可以在质量和缩放上匹配Transformer的RNN, 同时速度更快, 节省VRAM

image.png

音视频转录

链接:https://modelscope.cn/studios/glt3953/app-audio_video_transcribe/summary

介绍:您只需要上传一段音频或视频文件,我们的服务会快速对其进行语音识别,然后生成相应的文字和字幕。这样,您就可以轻松地记录下重要的语音内容,或者为视频添加精准的字幕。现在就来试试我们的音视频转录服务吧,让您的生活和工作更加便捷!

image.png

Fugl-Meyer康复测评

链接:https://modelscope.cn/studios/wanghongsheng/test_space3/summary

介绍:针对Fugl-Meyer量表中总结出了五套测试动作,对输入视频进行测试项预测,并返回测试评分

image.png

相关文章
|
运维 Cloud Native 安全
阿里平台工程的发展历程与关键实践
什么是平台工程,怎么在企业内落地平台工程,云效负责人陈鑫在2023云栖大会上,结合云效过去在阿里内部十多年的经验和在各大企业的实践,给出了非常详细的解答。
4260 3
|
数据安全/隐私保护
【Nest教程】Nest项目配置邮件服务器,实现发送邮件
【Nest教程】Nest项目配置邮件服务器,实现发送邮件
859 0
【Nest教程】Nest项目配置邮件服务器,实现发送邮件
|
5月前
|
机器学习/深度学习 JSON 监控
淘宝拍立淘按图搜索与商品详情API的JSON数据返回详解
通过调用taobao.item.get接口,获取商品标题、价格、销量、SKU、图片、属性、促销信息等全量数据。
|
Ubuntu 开发工具 Python
Ubuntu apt-get和pip国内源更换
Ubuntu apt-get和pip源更换 更新数据源为国内,是为了加速安装包的增加速度。 更换apt-get数据源 输入:sudo -s切换为root超级管理员; 执行命令:vim /etc/apt/sources.
14178 0
|
机器人 应用服务中间件 API
轻松集成私有化部署Dify文本生成型应用
Dify 是一款开源的大语言模型应用开发平台,融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者能快速搭建生产级生成式 AI 应用。通过阿里云计算巢,用户可以一键部署 Dify 社区版,享受独享的计算和网络资源,并无代码完成钉钉、企业微信等平台的应用集成。本文将详细介绍如何部署 Dify 并将其集成到钉钉群聊机器人和企业微信中,帮助您轻松实现 AI 应用的定义与数据运营,提升工作效率。
5453 65
轻松集成私有化部署Dify文本生成型应用
|
10月前
|
数据采集 人工智能 监控
探讨 AI 驱动自适应数据采集技术
在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。
456 44
|
SQL Java 数据库连接
深入 MyBatis-Plus 插件:解锁高级数据库功能
Mybatis-Plus 提供了丰富的插件机制,这些插件可以帮助开发者更方便地扩展 Mybatis 的功能,提升开发效率、优化性能和实现一些常用的功能。
1598 26
深入 MyBatis-Plus 插件:解锁高级数据库功能
|
12月前
|
机器学习/深度学习 算法 测试技术
【动态规划篇】01 背包的逆袭:如何用算法装满你的 “财富背包”
【动态规划篇】01 背包的逆袭:如何用算法装满你的 “财富背包”
|
移动开发 前端开发 JavaScript
HTML+CSS动画打造酷炫轮播图!(含源码)
HTML+CSS动画打造酷炫轮播图!(含源码)