modelscope_社区达人页

个人头像照片
modelscope

0关注

0粉丝

已加入开发者社区122

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
初入江湖
初入江湖

成就

已发布139篇文章
43条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年04月

2025年03月

  • 03.31 11:38:42
    发表了文章 2025-03-31 11:38:42

    魔搭社区模型速递(3.23-3.29)

    🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
  • 03.31 11:34:50
    发表了文章 2025-03-31 11:34:50

    WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

    近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
  • 03.31 11:32:33
    发表了文章 2025-03-31 11:32:33

    看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

    今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
  • 03.26 14:44:17
    发表了文章 2025-03-26 14:44:17

    Qwen2.5-VL-32B: 更聪明、更轻量!

    年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
  • 03.26 14:00:35
    发表了文章 2025-03-26 14:00:35

    DeepSeek-V3小版本升级,非推理模型王者归来

    今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
  • 03.26 13:59:17
    发表了文章 2025-03-26 13:59:17

    今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

    由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。
  • 03.25 11:16:30
    发表了文章 2025-03-25 11:16:30

    4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

    魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
  • 03.25 11:09:59
    发表了文章 2025-03-25 11:09:59

    上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

    由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
  • 03.24 13:22:13
    发表了文章 2025-03-24 13:22:13

    魔搭社区模型速递(3.16-3.22)

    魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容
  • 03.24 13:21:18
    发表了文章 2025-03-24 13:21:18

    不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

    还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。
  • 03.24 13:18:20
    发表了文章 2025-03-24 13:18:20

    今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

    由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。
  • 03.21 14:26:28
    发表了文章 2025-03-21 14:26:28

    阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

    在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
  • 03.21 14:17:08
    发表了文章 2025-03-21 14:17:08

    RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

    由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。
  • 03.20 14:12:50
    发表了文章 2025-03-20 14:12:50

    Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

    在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。
  • 03.20 14:11:21
    发表了文章 2025-03-20 14:11:21

    MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

    Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
  • 03.20 14:09:26
    发表了文章 2025-03-20 14:09:26

    今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

    这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
  • 03.20 14:06:19
    发表了文章 2025-03-20 14:06:19

    今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

    由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
  • 03.20 14:02:57
    发表了文章 2025-03-20 14:02:57

    琶洲算法大赛首场高校巡回赛中山大学站圆满收官

    近日,琶洲算法大赛高校巡回赛全国首站在中山大学珠海校区圆满收官。琶洲算法大赛定位为国际性算法领域权威赛事,旨在推动人工智能技术创新与产业融合‌,举办三届以来,琶洲已经评选出41位琶洲领军算法师,落地人才团队170个,极大程度扩充丰富了本地算法人才数量和层级。
  • 03.18 14:47:02
    发表了文章 2025-03-18 14:47:02

    ModelScope魔搭25年3月发布月报

    在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
  • 03.18 14:45:14
    发表了文章 2025-03-18 14:45:14

    魔搭社区模型速递(3.9-3.15)

    魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
  • 03.18 14:43:50
    发表了文章 2025-03-18 14:43:50

    本周 AI Benchmark 方向论文推荐

    由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
  • 03.18 14:41:38
    发表了文章 2025-03-18 14:41:38

    论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

    简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
  • 03.18 14:39:00
    发表了文章 2025-03-18 14:39:00

    论文推荐:CoSTAast、Transformers without Normalization

    由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。
  • 03.18 14:19:13
    发表了文章 2025-03-18 14:19:13

    驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

    3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。
  • 03.18 14:15:59
    发表了文章 2025-03-18 14:15:59

    有效的思考:模型思考效率评测

    随着大语言模型的迅速发展,模型的推理能力得到了显著提升。特别是长推理模型(Long Reasoning Models),如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来得到正确的答案。
  • 03.18 14:14:50
    发表了文章 2025-03-18 14:14:50

    热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR

    由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。
  • 03.14 16:52:21
    发表了文章 2025-03-14 16:52:21

    线上共学 | Mac本地玩转大模型

    本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
  • 03.14 10:30:00
    发表了文章 2025-03-14 10:30:00

    今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding

    由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。
  • 03.13 11:13:15
    发表了文章 2025-03-13 11:13:15

    R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

    随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
  • 03.13 11:10:45
    发表了文章 2025-03-13 11:10:45

    “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!

    在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型,以《西游记》的经典人物或故事为背景,描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容,选择用任意的视觉风格和叙事手法进行演绎,展现 AI 在风格迁移、内容创意和叙事变化上的可能性。
  • 03.13 11:02:13
    发表了文章 2025-03-13 11:02:13

    今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher

    由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。
  • 03.13 10:59:08
    发表了文章 2025-03-13 10:59:08

    今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench

    由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。
  • 03.11 10:25:10
    发表了文章 2025-03-11 10:25:10

    QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!

    近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。
  • 03.11 10:22:57
    发表了文章 2025-03-11 10:22:57

    解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性

    近年来,大型语言模型(LLMs)在金融领域的应用如火如荼,从风险分析到客户服务,它们正逐步改变行业的游戏规则。然而,这些模型是否真的足够“靠谱”?面对复杂的金融数据和多变的用户输入,它们还能保持精准和稳健吗?
  • 03.11 09:43:00
    发表了文章 2025-03-11 09:43:00

    腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!

    继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。
  • 03.10 11:16:32
    发表了文章 2025-03-10 11:16:32

    魔搭社区模型速递(3.2-3.8)

    🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容
  • 03.07 10:00:36
    发表了文章 2025-03-07 10:00:36

    QwQ-32B开源!更小尺寸,仅1/20参数性能比肩满血R1

    今天,通义千问开源了推理模型QwQ-32B
  • 03.06 11:16:03
    发表了文章 2025-03-06 11:16:03

    微软Phi-4系列开源:多模态与文本处理的创新突破

    微软近期推出 Phi-4-multimodal 和 Phi-4-mini,这些模型是 Microsoft Phi 系列小型语言模型 (SLM) 中的最新模型。Phi-4-multimodal 能够同时处理语音、视觉和文本,为创建创新且具有上下文感知能力的应用程序开辟了新的可能性。另一方面,Phi-4-mini 在基于文本的任务方面表现出色,以紧凑的形式提供高精度和可扩展性。
  • 03.06 11:14:19
    发表了文章 2025-03-06 11:14:19

    打造跨语言智能工具与应用,“万卷·丝路”专项课题开放申请

    随着共建“一带一路”进入高质量发展阶段,全球开发者对于多语言模型训练的需求不断增长,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑,助力全球开发者构建跨语言智能工具与应用。
  • 03.05 12:01:13
    发表了文章 2025-03-05 12:01:13

    CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!

    今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。
  • 03.05 11:59:25
    发表了文章 2025-03-05 11:59:25

    CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破

    对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
  • 03.04 18:39:34
    发表了文章 2025-03-04 18:39:34

    高效部署通义万相Wan2.1:使用Gradio搭建WebUI体验实战

    随着通义万相Wan2.1 在社区的热度持续上涨,魔搭创空间的体验Demo(https://modelscope.cn/studios/Wan-AI/Wan-2.1)已经排起长队。
  • 03.04 18:37:22
    发表了文章 2025-03-04 18:37:22

    高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

    通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
  • 03.03 13:29:06
    发表了文章 2025-03-03 13:29:06

    魔搭社区模型速递(2.16-3.1)

    🙋魔搭ModelScope本期社区进展:📟2621个模型,Ovis2系列模型等,📁276个数据集,🎨203个创新应用,📄 12篇技术内容
  • 03.03 13:27:39
    发表了文章 2025-03-03 13:27:39

    人人都是应用开发者:AI时代的全栈产品经理实践

    本文试图最短路径、最轻模式来做一个应用,实现一个需求!仅需三大步+9小步,以下为手把手教学流程。
  • 03.03 13:26:29
    发表了文章 2025-03-03 13:26:29

    HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!

    HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
  • 发表了文章 2025-04-02

    杭州六小龙最新开源「空间理解模型」,保姆级教程来了!

  • 发表了文章 2025-04-02

    通义灵码与魔搭Notebook深度集成:在线编码开箱即用,开发效率倍增

  • 发表了文章 2025-04-02

    重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

  • 发表了文章 2025-03-31

    看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

  • 发表了文章 2025-03-31

    WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

  • 发表了文章 2025-03-31

    魔搭社区模型速递(3.23-3.29)

  • 发表了文章 2025-03-26

    Qwen2.5-VL-32B: 更聪明、更轻量!

  • 发表了文章 2025-03-26

    DeepSeek-V3小版本升级,非推理模型王者归来

  • 发表了文章 2025-03-26

    今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

  • 发表了文章 2025-03-25

    4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

  • 发表了文章 2025-03-25

    上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

  • 发表了文章 2025-03-24

    不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

  • 发表了文章 2025-03-24

    魔搭社区模型速递(3.16-3.22)

  • 发表了文章 2025-03-24

    今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

  • 发表了文章 2025-03-21

    阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

  • 发表了文章 2025-03-21

    RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

  • 发表了文章 2025-03-20

    MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

  • 发表了文章 2025-03-20

    Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

  • 发表了文章 2025-03-20

    今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

  • 发表了文章 2025-03-20

    今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等