modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区388

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布402篇文章
203条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年04月

2025年03月

  • 03.31 11:38:42
    发表了文章 2025-03-31 11:38:42

    魔搭社区模型速递(3.23-3.29)

    🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
  • 03.31 11:34:50
    发表了文章 2025-03-31 11:34:50

    WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

    近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
  • 03.31 11:32:33
    发表了文章 2025-03-31 11:32:33

    看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

    今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
  • 03.26 14:44:17
    发表了文章 2025-03-26 14:44:17

    Qwen2.5-VL-32B: 更聪明、更轻量!

    年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
  • 03.26 14:00:35
    发表了文章 2025-03-26 14:00:35

    DeepSeek-V3小版本升级,非推理模型王者归来

    今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
  • 03.26 13:59:17
    发表了文章 2025-03-26 13:59:17

    今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

    由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。
  • 03.25 11:16:30
    发表了文章 2025-03-25 11:16:30

    4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

    魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
  • 03.25 11:09:59
    发表了文章 2025-03-25 11:09:59

    上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

    由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
  • 03.24 13:22:13
    发表了文章 2025-03-24 13:22:13

    魔搭社区模型速递(3.16-3.22)

    魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容
  • 03.24 13:21:18
    发表了文章 2025-03-24 13:21:18

    不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

    还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。
  • 03.24 13:18:20
    发表了文章 2025-03-24 13:18:20

    今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

    由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。
  • 03.21 14:26:28
    发表了文章 2025-03-21 14:26:28

    阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

    在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
  • 03.21 14:17:08
    发表了文章 2025-03-21 14:17:08

    RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

    由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。
  • 03.20 14:12:50
    发表了文章 2025-03-20 14:12:50

    Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

    在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。
  • 03.20 14:11:21
    发表了文章 2025-03-20 14:11:21

    MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

    Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
  • 03.20 14:09:26
    发表了文章 2025-03-20 14:09:26

    今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

    这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
  • 03.20 14:06:19
    发表了文章 2025-03-20 14:06:19

    今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

    由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
  • 03.20 14:02:57
    发表了文章 2025-03-20 14:02:57

    琶洲算法大赛首场高校巡回赛中山大学站圆满收官

    近日,琶洲算法大赛高校巡回赛全国首站在中山大学珠海校区圆满收官。琶洲算法大赛定位为国际性算法领域权威赛事,旨在推动人工智能技术创新与产业融合‌,举办三届以来,琶洲已经评选出41位琶洲领军算法师,落地人才团队170个,极大程度扩充丰富了本地算法人才数量和层级。
  • 03.18 14:47:02
    发表了文章 2025-03-18 14:47:02

    ModelScope魔搭25年3月发布月报

    在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
  • 03.18 14:45:14
    发表了文章 2025-03-18 14:45:14

    魔搭社区模型速递(3.9-3.15)

    魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
  • 03.18 14:43:50
    发表了文章 2025-03-18 14:43:50

    本周 AI Benchmark 方向论文推荐

    由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
  • 03.18 14:41:38
    发表了文章 2025-03-18 14:41:38

    论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

    简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
  • 03.18 14:39:00
    发表了文章 2025-03-18 14:39:00

    论文推荐:CoSTAast、Transformers without Normalization

    由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。
  • 03.18 14:19:13
    发表了文章 2025-03-18 14:19:13

    驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

    3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。
  • 03.18 14:15:59
    发表了文章 2025-03-18 14:15:59

    有效的思考:模型思考效率评测

    随着大语言模型的迅速发展,模型的推理能力得到了显著提升。特别是长推理模型(Long Reasoning Models),如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来得到正确的答案。
  • 03.18 14:14:50
    发表了文章 2025-03-18 14:14:50

    热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR

    由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。
  • 03.14 16:52:21
    发表了文章 2025-03-14 16:52:21

    线上共学 | Mac本地玩转大模型

    本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
  • 03.14 10:30:00
    发表了文章 2025-03-14 10:30:00

    今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding

    由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。
  • 03.13 11:13:15
    发表了文章 2025-03-13 11:13:15

    R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

    随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
  • 03.13 11:10:45
    发表了文章 2025-03-13 11:10:45

    “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!

    在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型,以《西游记》的经典人物或故事为背景,描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容,选择用任意的视觉风格和叙事手法进行演绎,展现 AI 在风格迁移、内容创意和叙事变化上的可能性。
  • 03.13 11:02:13
    发表了文章 2025-03-13 11:02:13

    今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher

    由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。
  • 发表了文章 2025-12-24

    只靠国产算力与开源数据,端侧模型预训练行不行?我们做到了全流程开源

  • 发表了文章 2025-12-24

    告别“扁平思维”:Qwen-Image-Layered 开启 AI 图片的图层革命

  • 发表了文章 2025-12-22

    VTP:MiniMax海螺视频团队,首次开源!

  • 发表了文章 2025-12-19

    BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限

  • 发表了文章 2025-12-18

    一张图秒生 LoRA ? Qwen-Image-i2L 诞生记

  • 发表了文章 2025-12-17

    ModelScope魔搭社区发布月报 -- 25年12月

  • 发表了文章 2025-12-16

    通义百聆语音双子星,同步开源!

  • 发表了文章 2025-12-15

    Z-Image Turbo LoRA训练魔法:如何保持加速生图能力

  • 发表了文章 2025-12-12

    魔珐星云:免费体验企业级3D AI数字人智能客服!告别枯燥对话框!

  • 发表了文章 2025-12-12

    送给GLM Coding Plan用户和开源社区的“AI手机”

  • 发表了文章 2025-12-11

    智谱开源GLM-ASR:动动嘴,活就干了

  • 发表了文章 2025-12-09

    智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务

  • 发表了文章 2025-12-08

    智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

  • 发表了文章 2025-12-03

    告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用

  • 发表了文章 2025-12-03

    DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

  • 发表了文章 2025-12-03

    LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据

  • 发表了文章 2025-12-03

    Z-Image:冲击体验上限的下一代图像生成模型

  • 发表了文章 2025-11-27

    字节推出VeAgentBench + veADK,打造可评估、可复现的智能体开发新范式

  • 发表了文章 2025-11-26

    杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

  • 发表了文章 2025-11-26

    混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多