魔搭社区每周速递(12.08-12.14)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭ModelScope本期社区进展:新增1599个模型,46个数据集,67个创新应用,8篇内容

image.png

🙋魔搭ModelScope本期社区进展:

📟1599个模型:Llama 3.3、deepseek-vl2、DeepSeek-V2.5-1210、Ivy-VL、Tora_T2V_diffusers、InternViT-6B-448px-V2_5等;

📁46个数据集:P-MMEval、一招金融数据集、BiomedParseData、subsplease_animes等;

🎨67个创新应用Llama-3.3-70B-Instruct、ShowUI、通用交互式图像编辑和生成等;

📄 8篇内容:

  • AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
  • CAMEL AI 上海黑客松重磅来袭!快来尝试搭建你的第一个多智能体系统吧!

  • TeleAI 星辰语义大模型全尺寸开源,function call能力突出
  • 基于可图Kolors的皮影戏风格LoRA训练&创作
  • 千问开源P-MMEval数据集,面向大模型的多语言平行评测集
  • Llama 3.3开源!70B媲美405B性能,支持128K上下文
  • AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
  • InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o

01.精选模型

Llama 3.3

Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出),指令调优的纯文本模型针对多语言对话用例进行了优化,调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。


  • 训练数据:新的公开在线数据混合集
  • 参数量:70B
  • 输入模态:多语言文本
  • 输出模态:多语言文本和代码
  • 上下文长度:128K
  • GQA:是
  • 训练tokens:15T+(仅指预训练数据
  • 知识截止日期:2023年12月
  • 支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语


模型链接:

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct


代码示例:

transformers推理

import transformers
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

更多详情请见:

Llama 3.3开源!70B媲美405B性能,支持128K上下文

DeepSeek-VL2

DeepSeek-VL2 是DeepSeek最新推出的MoE 视觉-语言模型,它在性能上显著超越了其前身DeepSeek-VL。DeepSeek-VL2在各种任务中展现出卓越的能力,包括但不限于视觉问题回答、OCR、文档/表格/图表理解以及视觉定位。DeepSeek-VL2 系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别激活了10亿、28亿和45亿参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2在激活参数相似或更少的情况下,实现了具有竞争力或最先进的性能。


模型链接:

https://modelscope.cn/models/deepseek-ai/deepseek-vl2


代码推理:

# pip install git+https://github.com/deepseek-ai/DeepSeek-VL2.git
# pip install "transformers<4.42"
import torch
from modelscope import AutoModelForCausalLM, snapshot_download
from deepseek_vl.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl.utils.io import load_pil_images
# specify the path to the model
model_path = snapshot_download("deepseek-ai/deepseek-vl2-small")
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer
vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()
## single image conversation example
conversation = [
    {
        "role": "<|User|>",
        "content": "<image>\n<|ref|>The giraffe at the back.<|/ref|>.",
        "images": ["./images/visual_grounding.jpeg"],
    },
    {"role": "<|Assistant|>", "content": ""},
]
# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)
# run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
# run the model to get the response
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)
answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)


Ivy-VL

Ivy-VL 是由 AI Safeguard 联合CMU与斯坦福开发的⼀款轻量级多模态模型,秉承⾼效、轻量化和强性能的设计理念,聚焦于多模态⼤模型在端侧部署的需求。

Ivy-VL 的参数量仅为 3B,极⼤地降低了计算资源需求,在端侧设备上可实现实时推理。Ivy-VL在多个多模态榜单中夺得 SOTA成绩,在专业多模态模型评测榜单OpenCompass上面,做到了 4B 以下开源模型第⼀的性能。


image.png


模型链接:

https://modelscope.cn/models/AI-Safeguard/Ivy-VL-llava


Tora_T2V_diffusers

Tora是由阿里云技术团队推出的首个面向轨迹的扩散变换器框架,通过集成文本、视觉和轨迹条件,展现了在生成高质量、可控运动视频内容方面的突破性进展,其设计允许精确控制视频内容的动态,实验结果证明了其在高运动保真度和物理世界运动模拟方面的卓越性能。


模型链接:https://modelscope.cn/models/Alibaba_Research_Intelligence_Computing/Tora_T2V_diffusers



02.数据集推荐

P-MMEval

多语言基准 P-MMEval,涵盖有效的基础数据集和能力专业化数据集。我们扩展了现有的基准,确保所有数据集的语言覆盖范围一致,并在多种语言之间提供并行样本,支持来自 8 个语系(即 en、zh、ar、es、ja、ko、th、fr、pt、vi)的多达 10 种语言。因此,P-MMEval 有助于对多语言能力进行整体评估并对跨语言可迁移性进行比较分析。

数据集链接:

https://modelscope.cn/datasets/Qwen/P-MMEval


一招金融数据集

一招数据集由哈尔滨工业大学&招商银行联合推出,是一个2TB高质量多模态的大模型训练数据集(包含936GB中文文本数据集,100GB英文文本数据集和1TB的高质量多模态数据集)。该数据集不仅包含广泛的金融事件、市场动态,还涵盖各种金融产品和交易模式,以确保模型在复杂的金融环境中展现出卓越的泛化能力和预测准确性。

数据集链接:

https://modelscope.cn/datasets/CMB_AILab/YiZhao-FinDataSet


BiomedParseData

BiomedParseData 是生物医学领域数据集,旨在支持和促进生物医学信息的解析与研究。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/BiomedParseData


subsplease_animes

subsplease_animes 是一个专注于动漫字幕的数据集,用于支持动漫领域的字幕生成和语言处理研究。

数据集链接:

https://modelscope.cn/datasets/deepghs/subsplease_animes


03.精选应用

Llama-3.3-70B-Instruct

Llama 3.3 是一个70B参数的多语言自回归语言模型,通过SFT和RLHF调优,支持多语言文本和代码的生成,具备128K的上下文长度,覆盖多种语言,训练数据超过15T tokens。


体验直达:

https://modelscope.cn/studios/LLM-Research/Llama-3.3-70B-Instruct


ShowUI

上传一张图+一句话即可检测到图像上的坐标。


体验直达:

https://modelscope.cn/studios/AI-ModelScope/ShowUI


通用交互式图像编辑和生成

你可以上传图像进行编辑,或者通过输入'@'来生成图像并从画廊中选择,但请注意,当前模型仅支持英文指令。

体验直达:

https://modelscope.cn/studios/iic/ACE-Chat

04.社区精选文章



目录
相关文章
|
机器学习/深度学习 人工智能 安全
【AI 现况分析】AI在网络安全领域中的应用
【1月更文挑战第27天】【AI 现况分析】AI在网络安全领域中的应用
|
存储 Docker 容器
企业实战(6)修改Harbor镜像仓库默认存储路径
企业实战(6)修改Harbor镜像仓库默认存储路径
722 0
|
双11
29 岁成为阿里巴巴P8,工作前5年完成晋升3连跳,他如何做到?
泡泡是我的好朋友。今年31岁,毕业后就进了阿里巴巴,工作五年内从P4晋升至 P6、P7、P8。
5374 0
|
10月前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
10月前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
10月前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
546 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
数据库 Python
Python实践:从零开始构建你的第一个Web应用
使用Python和轻量级Web框架Flask,你可以轻松创建Web应用。先确保安装了Python,然后通过`pip install Flask`安装Flask。在`app.py`中编写基本的&quot;Hello, World!&quot;应用,定义路由`@app.route(&#39;/&#39;)`并运行`python app.py`启动服务器。扩展应用,可添加新路由显示当前时间,展示Flask处理动态内容的能力。开始你的Web开发之旅吧!【6月更文挑战第13天】
497 2
|
10月前
|
数据采集 存储 自然语言处理
魔搭社区每周速递(12.22-12.28)
魔搭ModelScope本期社区进展:1039个模型,128个数据集,63个创新应用,6篇内容。
263 4
|
10月前
|
数据采集 人工智能 自然语言处理
魔搭社区每周速递(12.01-12.07)
本周新增1338个模型,82个数据集,26个创新应用,8篇内容
442 10
|
11月前
|
人工智能 自然语言处理 搜索推荐
AI与心理健康:情感支持的新形式
【10月更文挑战第31天】在快节奏的现代生活中,心理健康问题日益突出。AI技术的发展为情感支持提供了新形式,包括心理评估、情感监测、危机干预和个性化咨询。本文探讨了AI在心理健康领域的应用及其对个人和社会的深远影响。
1277 0

热门文章

最新文章