魔搭社区模型速递(8.30-9.06)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 🙋魔搭ModelScope本期社区进展:3361个模型,313个数据集,73个创新应用, 8篇内容

image.png

🙋魔搭ModelScope本期社区进展:

📟3361个模型:Kimi-K2-Instruct-0905LongCat-Flash-Chat、HunyuanWorld-VoyagerStep-Audio-2-miniHunyuan-MT-7B

📁313个数据集:voicebench、arabic-audio-dataset、CENSUS-NER-Name-Email-Address-Phone等;

🎨73个创新应用荣耀GUI、MolScribe、VibeVoice等

📄 8篇内容:

  • Kimi K2 模型更新,带来更强的代码能力、更快的 API
  • 移动端MagicGUI开源:会使用手机APP的AI!支持中英双语
  • 腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游
  • 美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s
  • 魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!
  • 拿下30个第1名的腾讯混元翻译模型,开源!
  • 告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
  • 开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

01.模型推荐

Kimi-K2-Instruct-0905

Kimi K2-Instruct-0905 是 Kimi K2 的最新、最强大的版本。它是一个最先进的混合专家(MoE)语言模型,具有 320 亿激活参数和总共 1 万亿参数,主要特点:

  • 增强的智能代理编码能力:Kimi K2-Instruct-0905 在公共基准测试和实际编码代理任务中表现出显著的性能提升。
  • 改进的前端编码体验:Kimi K2-Instruct-0905 在前端编程的美观性和实用性方面都有所改进。
  • 扩展的上下文长度:Kimi K2-Instruct-0905 的上下文窗口从 128k 扩展到 256k 个标记,为长时任务提供了更好的支持。

模型链接:

https://modelscope.cn/models/moonshotai/Kimi-K2-Instruct-0905

使用说明:

开发者当前可通过魔搭免费API-Inference进行API试用

LongCat-Flash-Chat

美团开源的一个强大的高效语言模型,总参数量为 5600 亿,采用创新的专家混合(MoE)架构。该模型结合了动态计算机制,根据上下文需求激活 186 亿至 313 亿个参数(平均约 270 亿),从而优化了计算效率和性能。为了实现先进的训练和推理效率,我们采用了缩短连接架构,扩展了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理,全面训练和扩展策略确保了稳定高效的训练,而定制的数据策略增强了模型性能。

模型链接:

https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Chat

示例代码:

官方提供了分别基于 SGLang 和 vLLM 的两种高效部署方案,助您轻松部署、快速体验模型效果,以下为使用SGLang进行单机部署的示例:

SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server \    
  --model meituan-longcat/LongCat-Flash-Chat-FP8 \    
  --trust-remote-code \    
  --attention-backend flashinfer \    
  --enable-ep-moe \    
  --tp 8

其他更为详细的部署指导请参阅 LongCat-Flash-Chat 仓库:

https://github.com/meituan-longcat/LongCat-Flash-Chat

更多微调实战教程详见:

美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s

Hunyuan-MT-7B

腾讯混元带来一个在国际机器翻译比赛拿下30个第1名的翻译模型Hunyuan-MT-7B,它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型,具备以下核心特性与优势:

  • 在WMT25参赛的31种语言中,有30种语言获得了第一名的成绩;
  • Hunyuan-MT-7B在业界同尺寸模型中效果最优;
  • Hunyuan-MT-Chimera-7B是业界首个开源翻译集成模型,可以进一步提升翻译效果;
  • 提出了一个完整的翻译模型训练范式,从预训练->CPT->SFT->翻译强化->集成强化,翻译效果达到同尺寸SOTA。

模型链接:

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-MT-7B

示例代码:

使用 transformers 推理,需要安装最新版本的transformers,推荐v4.56.0

pip install transformers==4.56.0

推理代码

from modelscope import AutoModelForCausalLM, AutoTokenizer
import os
model_name_or_path = "Tencent-Hunyuan/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nGet something off your chest"},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
print(output_text)


Step-Audio-2-mini

阶跃星辰开源发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。它将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。

Step-Audio 2 mini 在多个关键基准测试中取得 SOTA 成绩,在音频理解、语音识别、翻译和对话场景中表现突出,综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型,并在大部分任务上超越 GPT-4o Audio。

模型链接:

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

HunyuanWorld-Voyager

腾讯混元于9月2日正式发布开源其3D世界模型系列最新成员——HunyuanWorld-Voyager(混元Voyager),这是业界首个支持原生3D重建的超长漫游世界模型。它突破传统视频生成在空间一致性与探索范围上的限制,可基于单张图像和自定义相机路径,生成世界一致的3D点云序列与长距离漫游视频,并支持直接导出为3D格式。模型具备“3D输入-3D输出”特性,与混元1.0高度兼容,可扩展漫游范围、提升复杂场景质量,并支持风格化编辑与多任务应用,如3D纹理生成、深度估计、场景重建等,全面赋能虚拟现实、游戏开发与物理仿真等领域。

在权威评测中,混元Voyager荣登斯坦福大学李飞飞团队发布的WorldScore世界模型排行榜综合能力榜首,超越所有现有开源方案,在视频生成与3D重建两大核心任务中均表现最优。

模型链接:

https://modelscope.cn/models/Tencent-Hunyuan/HunyuanWorld-Voyager

更多详情教程请见:

腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游

02.数据集推荐

Voicebench

VoiceBench 数据集主要用于评测基于大语言模型的语音助手在真实复杂语音场景下的综合表现,涵盖多说话人、多环境、多内容变化等维度。其应用场景包括语音助手鲁棒性测试、指令理解能力评估、安全性检测以及多模态语音交互系统研发。

数据集链接:

https://modelscope.cn/datasets/lmms-lab/voicebench

CENSUS-NER-Name-Email-Address-Phone

该数据集包含姓名、邮箱、地址、电话四类实体,专用于训练与评估中文敏感信息脱敏与命名实体识别模型。  适用于政务数据开放、客服记录清洗、隐私合规审计等场景,可一键识别并遮蔽公民关键个人信息。

数据集链接:

https://modelscope.cn/datasets/Josephgflowers/CENSUS-NER-Name-Email-Address-P



arabic-audio-dataset

Kratos-AI/arabic-audio-dataset 专为阿拉伯语语音识别、语音合成及方言适配设计,覆盖 10 大主流方言与 300+ 小时高清朗读语音。 可直接服务于中东与北非市场的智能语音助手、车载语音、教育评测、字幕自动生成等场景,帮助开发者快速落地阿拉伯语 AI 语音产品。



数据集链接:

https://modelscope.cn/datasets/Kratos-AI/arabic-audio-dataset

03.创空间

荣耀GUI

MagicGUI 是一个基于大模型的图形界面生成工具,用户只需输入一句话,即可快速生成可交互的图形界面,适用于原型设计、应用开发和教育演示等场景。

体验链接:

https://modelscope.cn/studios/FudanNLP/MagicGUI

MolScribe

MolScribe 是一个在线化学分子结构识别与生成工具,用户可通过手绘或文本输入快速生成分子结构图,适用于化学教学、科研绘图及药物设计等场景。

体验链接:

https://modelscope.cn/studios/studio-test/MolScribe

VibeVoice

VibeVoice 是即开即用的 AI 语音克隆与配音工作室,上传 10 秒原声即可复刻音色,秒级为视频、广告、播客生成多语种、多情绪的配音,适合内容创作者、跨境营销与无障碍语音需求。

体验链接:

https://modelscope.cn/studios/xmccln/VibeVoice

目录
相关文章
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
1196 23
|
3天前
|
缓存 自然语言处理 并行计算
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
65 2
|
24天前
|
Kubernetes Devops API
从零到面试高手:每个 DevOps 专业人士都必须知道的 20 个 Kubernetes 架构问答
Kubernetes 是当前 DevOps、云原生和 SRE 领域的关键技能。本文总结了 20 个高频面试问题,涵盖架构组件、工作原理及核心概念,助你轻松掌握 Kubernetes 基础,提升面试与实战能力。
149 2
|
24天前
|
XML 自然语言处理 数据可视化
免费!文本表格不会总结、分析?文本表格可视化!帮你轻松解决困扰,保姆级级教程。【附Coze工作流】
本文介绍了如何利用“扣子”平台创建资源,通过可视化工作流处理并分析文档、表格、PDF等内容,帮助用户快速获取文件核心信息。内容涵盖登录、资源创建、工作流配置及运行操作,适用于多种文件格式,如CSV、Excel、PDF等。
344 2
|
2月前
|
人工智能 自然语言处理 物联网
魔搭社区模型速递(8.10-8.16)
🙋魔搭ModelScope本期社区进展:📟5285个模型,📁497个数据集,🎨59个创新应用,📄 9篇内容
283 0
|
14天前
|
人工智能 物联网 API
ModelScope魔搭25年9月发布月报
ModelScope魔搭25年9月发布月报
206 10
|
24天前
|
缓存 人工智能 测试技术
腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游
9 月 2 日,腾讯混元宣布,其3D世界模型系列最新成员——HunyuanWorld-Voyager(简称混元Voyager)发布并开源,这将推动AI在空间智能领域的应用扩展,为虚拟现实、物理仿真、游戏开发等领域提供高保真3D场景漫游能力,加速行业应用落地。
93 0
|
24天前
|
人工智能 前端开发 测试技术
Kimi K2 模型更新,带来更强的代码能力、更快的 API
今天,Kimi K2 模型的最新版本 0905 开源发布,进一步提升其在真实编程任务中的表现
254 0

热门文章

最新文章