🙋魔搭ModelScope本期社区进展:
📟828个模型:Cogagent-9b、SmallThinker-3B-Preview、HuatuoGPT-o1系列等;
📁72个数据集:lmsys_chat_1m_clean、reasoning-1-1k、LaTeX公式OCR识别数据集等;
🎨61个创新应用:mirau-14b-demo、GPT-SoVITS V2 Taffy语音在线生成、集体照人脸识别与查询分割(复旦MSE)等;
📄 9篇内容:
- AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉,快来围观风格化地标!
- 智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景
- 人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
- 新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用
- 2025的第一节启发课:从想法到实践(基于Gradio的AI应用搭建实践课①)
- 魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
- 社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
- 极致的显存管理!6G显存运行混元Video模型
- 2025年啦!0代码,做一本给足情绪价值的夸夸日历
01.精选模型
Cogagent-9b-20241220
CogAgent-9B是智谱AI基于GLM-4V-9B训练的专用Agent任务模型,专注于通过屏幕截图预测下一步GUI操作,无需HTML等文本表征。它能够结合历史操作执行用户指定的任务,适用于个人电脑、手机和车机设备等多种GUI交互场景。相较于2023年12月的第一版,CogAgent-9B-20241220在GUI感知、推理准确性、动作空间、任务普适性和泛化性上显著提升,并支持中英文双语交互。
模型链接:
https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
运行模型
代码下载
git clone https://github.com/THUDM/CogAgent.git cd CogAgent
模型下载
modelscope download --model ZhipuAI/cogagent-9b-20241220 --local_dir ./cogagent
CLI模型推理
python inference/cli_demo.py --model_dir ./cogagent --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive
更多详情请见:
智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景
HuatuoGPT-o1系列
HuatuoGPT-o1 是一款为高级医学推理而设计的医学大型语言模型。它在提供最终回答之前,会生成一个复杂的思维过程,进行反思和提炼推理。
模型链接:
- HuatuoGPT-o1-7B:
https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-7B
- HuatuoGPT-o1-8B:
https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-8B
- HuatuoGPT-o1-70B:
https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-70B
- HuatuoGPT-o1-72B:
https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-72B
示例代码:
以 HuatuoGPT-o1-7B 推理为例
from modelscope import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B",torch_dtype="auto",device_map="auto") tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B") input_text = "How to stop a cough?" messages = [{"role": "user", "content": input_text}] inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False,add_generation_prompt=True ), return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=2048) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
SmallThinker-3B-Preview
SmallThinker-3B-Preview是一个基于Qwen2.5-3b-Instruct模型微调的针对边缘部署进行优化的新推理模型,为资源受限设备上的人工智能任务提供了显著的加速。它作为更大的QwQ-32B-Preview的草稿模型,在 llama.cpp 中可以获得 70% 的速度提升(从每秒 40 个 token 提升到每秒 70 个 token)。
模型链接:
https://www.modelscope.cn/models/PowerInfer/SmallThinker-3B-Preview
02.数据集推荐
lmsys_chat_1m_clean
包含100万条清洁的中文聊天对话记录,用于支持自然语言处理和对话系统的研究与开发。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/lmsys_chat_1m_clean
reasoning-1-1k
包含1000个问题,旨在提升模型的逻辑推理能力。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/reasoning-1-1k
LaTeX公式OCR识别数据集
旨在支持和提升OCR技术在识别和处理LaTeX格式的数学公式和科学文档方面的表现。该数据集对于自然语言处理和文档分析领域的研究与应用具有重要价值。
数据集链接:
https://modelscope.cn/datasets/xmatrix/OCR_Synthetic_LaTeX
03.精选应用
mirau-14b-demo
沉浸式体验剧本,支持文字输入,共有三个角色选择体验。
体验直达:
https://modelscope.cn/studios/mouseEliauk/mirau-14b-demo
GPT-SoVITS V2 Taffy语音在线生成
提供文本到语音的转换服务,用户可以在这个创空间中体验先进的语音合成技术。
体验直达:
https://modelscope.cn/studios/cynika/GPT-SoVITS-v2-taffy
集体照人脸识别与查询分割
支持在集体照片中进行人脸检测和识别。
体验直达:
https://modelscope.cn/studios/funcity159/GroupPhotoFaceRecognition
04.社区精选文章
- AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉,快来围观风格化地标!
- 智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景
- 人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
- 新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用
- 2025的第一节启发课:从想法到实践(基于Gradio的AI应用搭建实践课①)
- 魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
- 社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
- 极致的显存管理!6G显存运行混元Video模型
- 2025年啦!0代码,做一本给足情绪价值的夸夸日历