🙋魔搭ModelScope本期社区进展:
📟404个模型:PDF内容提取模型(MinerU使用模型)、EchoMimic、mamba-codestral-7B-v0.1等;
📁133个数据集:可图优质咒语书、Lyft_Level_5_Prediction、SA1B-描述-子图对、Pile-PubMed_Abstracts等;
🎨86个创新应用:可图文生图、某种有界背包问题求解器、世界模拟器等;
📄7篇文章:
- 可图IP-adapter-plus开源,魔搭送你一本中文咒语书
- 社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
- 基于 Qwen-Agent 与 OpenVINOTM 构建本地 AI 智能体
- 魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
- Ollama可以玩GLM4和CodeGeeX4了,快来魔搭玩起来
- 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性
- 影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音
精选模型推荐
Kolors-IP-Adapter-Plus
快手可图团队基于Kolors-Basemodel 提供 IP-Adapter-Plus 权重和推理代码。使用更强大的图像特征提取器 Openai-CLIP-336 模型作为图像编码器,能够在参考图像中保留更多细节,使用更多样化和高质量的训练数据,构建了一个大规模和高质量的训练数据集,研究团队相信成对的训练数据可以有效提高性能。
模型链接:
https://modelscope.cn/models/Kwai-Kolors/Kolors-IP-Adapter-Plus
示例代码:
下载代码:
git clone https://github.com/Kwai-Kolors/Kolors cd Kolors pip install -r requirements.txt
下载模型权重:
基础模型:
modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors
IP-adapter-plus模型:
modelscope download ---model=Kwai-Kolors/Kolors-IP-Adapter-Plus --local_dir weights/Kolors-IP-Adapter-Plus
推理代码:
python ipadapter/sample_ipadapter_plus.py ./ipadapter/https://raw.githubusercontent.com/junqiangwu/Kolors/master/ipadapter/assert/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图”"
PDF内容提取模型(MinerU使用模型)
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:
- 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
- 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
- 公式识别:使用UniMERNet进行公式识别;
- 光学字符识别:使用PaddleOCR进行文本识别;
模型链接:
https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit
示例代码:
SDK Download
# First, install the ModelScope library using pip: pip install modelscope
# Use the following Python code to download the model using the ModelScope SDK: from modelscope import snapshot_download model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')
Git Download
或者,您可以使用 Git 从 ModelScope 克隆模型存储库:
git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
EchoMimic
EchoMimic:通过可编辑的地标条件处理逼真的音频驱动人像动画
模型链接:
https://www.modelscope.cn/models/BadToBest/EchoMimic
效果演示:
Mamba-codestral-7B-v0.1
Codestral Mamba 是基于 Mamba2 架构的开放代码模型。它的性能与最先进的基于 Transformer 的代码模型相当。
模型链接:
https://www.modelscope.cn/models/LLM-Research/mamba-codestral-7B-v0.1
示例代码:
建议与 mistral-inference 一起使用mistralai/mamba-codestral-7B-v0.1
在魔搭镜像环境中使用
wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl" wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl" pip install mistral_inference pip install mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl pip install causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
下载
modelscope download --model=LLM-Research/mamba-codestral-7B-v0.1 --local_dir ./mamba-codestral-7B-v0.1
聊天
安装后,CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo
安装后,CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo
数据集推荐
可图优质咒语书
魔搭社区结合可图Kolors文生图模型开源了专门的各种风格的中文文生图咒语书,可以针对600+种不同风格,完善prompt,生成各种风格图片。
数据集链接:
https://modelscope.cn/datasets/modelscope/Kolors_awesome_prompts
SA1B-描述-子图对
SA1B-长文本图文描述基于 SAM-CLIP_Object_Centric pipeline的后处理数据集,匹配与局部描述对应的子图。
数据集链接:
https://www.modelscope.cn/datasets/Tongyi-DataEngine/SA1B-Paired-Captions-Images
精选应用推荐
可图文生图
快手开源了一种名为Kolors(可图)的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。
体验直达:https://www.modelscope.cn/studios/AI-ModelScope/Kolors
某种有界背包问题求解器
在“有界背包问题”中,每个项目都有最大选择次数限制。目标是确定符合这些限制的项目组合,以最大化或满足特定目标值。
体验直达:https://www.modelscope.cn/studios/OhMyDearAI/ILP-Solver
世界模拟器
通过对一个有趣的虚拟世界长期模拟,验证不可预测且确定性的复杂系统涌现现象。也可用于AI Agent、LLM Agent等接入,进行生存竞赛研究。
体验直达:https://www.modelscope.cn/studios/Cyberparticle/Rareworld