modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区339

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布365篇文章
178条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年04月

2025年03月

  • 03.31 11:38:42
    发表了文章 2025-03-31 11:38:42

    魔搭社区模型速递(3.23-3.29)

    🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
  • 03.31 11:34:50
    发表了文章 2025-03-31 11:34:50

    WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

    近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
  • 03.31 11:32:33
    发表了文章 2025-03-31 11:32:33

    看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

    今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
  • 03.26 14:44:17
    发表了文章 2025-03-26 14:44:17

    Qwen2.5-VL-32B: 更聪明、更轻量!

    年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
  • 03.26 14:00:35
    发表了文章 2025-03-26 14:00:35

    DeepSeek-V3小版本升级,非推理模型王者归来

    今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
  • 03.26 13:59:17
    发表了文章 2025-03-26 13:59:17

    今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

    由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。
  • 03.25 11:16:30
    发表了文章 2025-03-25 11:16:30

    4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

    魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
  • 03.25 11:09:59
    发表了文章 2025-03-25 11:09:59

    上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

    由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
  • 03.24 13:22:13
    发表了文章 2025-03-24 13:22:13

    魔搭社区模型速递(3.16-3.22)

    魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容
  • 03.24 13:21:18
    发表了文章 2025-03-24 13:21:18

    不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

    还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。
  • 03.24 13:18:20
    发表了文章 2025-03-24 13:18:20

    今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

    由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。
  • 03.21 14:26:28
    发表了文章 2025-03-21 14:26:28

    阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

    在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
  • 03.21 14:17:08
    发表了文章 2025-03-21 14:17:08

    RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

    由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。
  • 03.20 14:12:50
    发表了文章 2025-03-20 14:12:50

    Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

    在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。
  • 03.20 14:11:21
    发表了文章 2025-03-20 14:11:21

    MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

    Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
  • 03.20 14:09:26
    发表了文章 2025-03-20 14:09:26

    今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

    这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
  • 03.20 14:06:19
    发表了文章 2025-03-20 14:06:19

    今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

    由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
  • 03.20 14:02:57
    发表了文章 2025-03-20 14:02:57

    琶洲算法大赛首场高校巡回赛中山大学站圆满收官

    近日,琶洲算法大赛高校巡回赛全国首站在中山大学珠海校区圆满收官。琶洲算法大赛定位为国际性算法领域权威赛事,旨在推动人工智能技术创新与产业融合‌,举办三届以来,琶洲已经评选出41位琶洲领军算法师,落地人才团队170个,极大程度扩充丰富了本地算法人才数量和层级。
  • 03.18 14:47:02
    发表了文章 2025-03-18 14:47:02

    ModelScope魔搭25年3月发布月报

    在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
  • 03.18 14:45:14
    发表了文章 2025-03-18 14:45:14

    魔搭社区模型速递(3.9-3.15)

    魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
  • 发表了文章 2025-11-04

    超长序列并行之Ulysses + Ring-Attention技术原理与实现

  • 发表了文章 2025-11-03

    Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!

  • 发表了文章 2025-10-31

    Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍

  • 发表了文章 2025-10-30

    UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式

  • 发表了文章 2025-10-29

    全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!

  • 发表了文章 2025-10-27

    仅100多元,他给视障人群装上AI“眼睛”

  • 发表了文章 2025-10-27

    腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

  • 发表了文章 2025-10-27

    「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者

  • 发表了文章 2025-10-23

    Qwen3-VL新成员 2B、32B来啦!更适合开发者体质

  • 发表了文章 2025-10-17

    Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!

  • 发表了文章 2025-10-17

    ModelScope魔搭社区发布月报 -- 25年10月

  • 发表了文章 2025-10-15

    Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大

  • 发表了文章 2025-10-14

    用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字

  • 发表了文章 2025-10-13

    图像理解与生成统一模型——前沿模型架构理解

  • 发表了文章 2025-10-10

    Ling-1T,智渊、思简

  • 发表了文章 2025-10-09

    智谱旗舰模型GLM-4.6开源发布,代码能力对齐Claude Sonnet 4

  • 发表了文章 2025-09-30

    DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

  • 发表了文章 2025-09-30

    腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

  • 发表了文章 2025-09-30

    Tongyi DeepResearch的技术报告探秘

  • 发表了文章 2025-09-30

    PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多