modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区277

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布313篇文章
149条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年04月

2025年03月

  • 03.31 11:38:42
    发表了文章 2025-03-31 11:38:42

    魔搭社区模型速递(3.23-3.29)

    🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
  • 03.31 11:34:50
    发表了文章 2025-03-31 11:34:50

    WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

    近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
  • 03.31 11:32:33
    发表了文章 2025-03-31 11:32:33

    看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

    今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
  • 03.26 14:44:17
    发表了文章 2025-03-26 14:44:17

    Qwen2.5-VL-32B: 更聪明、更轻量!

    年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
  • 03.26 14:00:35
    发表了文章 2025-03-26 14:00:35

    DeepSeek-V3小版本升级,非推理模型王者归来

    今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
  • 03.26 13:59:17
    发表了文章 2025-03-26 13:59:17

    今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

    由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。
  • 03.25 11:16:30
    发表了文章 2025-03-25 11:16:30

    4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

    魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
  • 03.25 11:09:59
    发表了文章 2025-03-25 11:09:59

    上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

    由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
  • 03.24 13:22:13
    发表了文章 2025-03-24 13:22:13

    魔搭社区模型速递(3.16-3.22)

    魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容
  • 03.24 13:21:18
    发表了文章 2025-03-24 13:21:18

    不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

    还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。
  • 03.24 13:18:20
    发表了文章 2025-03-24 13:18:20

    今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

    由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。
  • 03.21 14:26:28
    发表了文章 2025-03-21 14:26:28

    阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

    在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
  • 03.21 14:17:08
    发表了文章 2025-03-21 14:17:08

    RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

    由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。
  • 03.20 14:12:50
    发表了文章 2025-03-20 14:12:50

    Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

    在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。
  • 03.20 14:11:21
    发表了文章 2025-03-20 14:11:21

    MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

    Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
  • 03.20 14:09:26
    发表了文章 2025-03-20 14:09:26

    今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

    这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
  • 03.20 14:06:19
    发表了文章 2025-03-20 14:06:19

    今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

    由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
  • 03.20 14:02:57
    发表了文章 2025-03-20 14:02:57

    琶洲算法大赛首场高校巡回赛中山大学站圆满收官

    近日,琶洲算法大赛高校巡回赛全国首站在中山大学珠海校区圆满收官。琶洲算法大赛定位为国际性算法领域权威赛事,旨在推动人工智能技术创新与产业融合‌,举办三届以来,琶洲已经评选出41位琶洲领军算法师,落地人才团队170个,极大程度扩充丰富了本地算法人才数量和层级。
  • 03.18 14:47:02
    发表了文章 2025-03-18 14:47:02

    ModelScope魔搭25年3月发布月报

    在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
  • 03.18 14:45:14
    发表了文章 2025-03-18 14:45:14

    魔搭社区模型速递(3.9-3.15)

    魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
  • 03.18 14:43:50
    发表了文章 2025-03-18 14:43:50

    本周 AI Benchmark 方向论文推荐

    由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
  • 发表了文章 2025-09-05

    美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s

  • 发表了文章 2025-09-05

    外滩大会报名 | 破局 AI 时代,洞察大模型开源开发全景、趋势与机遇

  • 发表了文章 2025-09-04

    魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!

  • 发表了文章 2025-09-03

    告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?

  • 发表了文章 2025-09-03

    拿下30个第1名的腾讯混元翻译模型,开源!

  • 发表了文章 2025-09-02

    开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

  • 发表了文章 2025-09-01

    魔搭社区模型速递(8.23-8.30)

  • 发表了文章 2025-09-01

    InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成

  • 发表了文章 2025-09-01

    AI创作更自由: 魔搭FLowBench云端工作流上线AIGC专区!支持QwenImageEdit免费出图!

  • 发表了文章 2025-09-01

    混元开源又+1:视频音效可以自动生成了

  • 发表了文章 2025-08-29

    混元开源又+1:视频音效可以自动生成了

  • 发表了文章 2025-08-28

    通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作

  • 发表了文章 2025-08-28

    AI界的篮球赛AI-BA来了,NBA中国赛2025比赛门票等你来拿

  • 发表了文章 2025-08-28

    面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快

  • 发表了文章 2025-08-28

    当AI学会跑跳抓:来云栖大会,参加一场“具身智能运动会”

  • 发表了文章 2025-08-26

    可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!

  • 发表了文章 2025-08-25

    轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源

  • 发表了文章 2025-08-25

    魔搭社区模型速递(8.17-8.23)

  • 发表了文章 2025-08-21

    【千问海报大赛·地方风物】创意征集令!用AI解锁家乡新名片,万元奖金等你来战!

  • 发表了文章 2025-08-21

    开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多