modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区497

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布473篇文章
240条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2026年04月

2026年03月

  • 03.26 16:16:49
    发表了文章 2026-03-26 16:16:49

    InternVerse具身数据平台发布,从数据供给到模型迭代,助力物理智能全链路提效

    百度千帆发布端到端文档智能模型Qianfan-OCR,4B参数统一视觉语言架构,融合版面分析、文字识别与语义理解。在OmniDocBench等权威评测中全面领先,支持复杂图表与多栏文档解析,已开源并上线千帆平台。(239字)
  • 03.26 16:06:37
    发表了文章 2026-03-26 16:06:37

    通义实验室Fun-CineForge开源:首个支持影视级多场景配音的多模态大模型

    通义实验室开源Fun-CineForge——首个支持多说话人、强时间对齐的多模态电影配音大模型。首创引入时间模态,结合视觉、文本、音频与时间信息,实现高精度唇形同步、音色克隆与情感表达,并开源高质量中文影视配音数据集CineDub-CN及端到端构建流程。(239字)
  • 03.16 11:10:22
    发表了文章 2026-03-16 11:10:22

    用 OpenJudge 搭建 AI 论文审稿工作流:从评估器到在线审稿的完整实践

    本文介绍基于开源评估框架OpenJudge构建的AI辅助论文审稿方案,支持PDF上传后自动生成含安全性检查、正确性分析、综合评审、严重性分级及参考文献校验的结构化报告,已上线可直接体验。
  • 03.12 13:16:44
    发表了文章 2026-03-12 13:16:44

    魔搭推出Twinkle: 训练即服务, 让模型训练回归算法语义

    Twinkle是ModelScope推出的开源模块化训练框架,采用Client-Server架构,支持本地、集群及Serverless训练。它以算法语义API抽象为核心,兼顾易用性与灵活性,提供细粒度控制、动态组件配置和多租户LoRA并发训练能力,并原生兼容Tinker API,全面开源,助力大模型训练服务化(TaaS)落地。
  • 03.09 10:53:24
    发表了文章 2026-03-09 10:53:24

    LTX-2.3开源: 视频生成引擎级升级

    Lightricks开源LTX-2.3音视频大模型:重建VAE提升细节锐度,文本连接器扩容4倍增强Prompt遵循,大幅优化I2V运动自然性与音频质量,并首次原生支持1080×1920竖版视频生成。22B参数,支持文生视频、图生视频等多任务。
  • 03.06 09:51:17
    发表了文章 2026-03-06 09:51:17

    阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!

    阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
  • 03.03 09:59:41
    发表了文章 2026-03-03 09:59:41

    小红书开源FireRed-OCR,2B 参数登顶文档解析榜单

    小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
  • 03.02 10:09:11
    发表了文章 2026-03-02 10:09:11

    打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力

    微软与清华联合推出X-Coder系列模型,首创纯合成数据训练范式,在不使用任何真实竞赛题的前提下,仅用7B参数即在LiveCodeBench v5上达62.9%准确率,超越更大规模依赖真实数据的模型。项目已开源模型与数据集。(239字)

2026年02月

  • 02.27 09:37:08
    发表了文章 2026-02-27 09:37:08

    用 4B 小模型做Code Agent的SubAgent?这个开源项目做到了

    LocoOperator-4B 是 LocoreMind 推出的 4B 开源蒸馏模型,专为代码库探索优化:本地运行、零 API 成本,结构化工具调用(Read/Grep/Glob/Bash 等)准确率达 100%。它替代 Code Agent 中的子智能体,显著降本增效。(239 字)
  • 02.26 09:39:55
    发表了文章 2026-02-26 09:39:55

    Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力

    通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
  • 02.25 10:28:17
    发表了文章 2026-02-25 10:28:17

    四款国产VLM OCR模型横评

    春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
  • 02.24 13:32:28
    发表了文章 2026-02-24 13:32:28

    魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

    通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
  • 02.24 13:21:35
    发表了文章 2026-02-24 13:21:35

    魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战

    通义千问推出Qwen3-TTS系列开源语音模型,支持中英日韩等10种语言,具备声音克隆、情感适配与高保真端到端合成能力;结合Intel OpenVINO™可在CPU上高效推理,无需GPU,轻松部署于边缘设备。(239字)
  • 02.24 13:16:49
    发表了文章 2026-02-24 13:16:49

    0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程

    智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
  • 02.24 11:14:22
    发表了文章 2026-02-24 11:14:22

    MiniCPM-o 4.5 CookBook:9B 参数玩转多模态全双工交互

    MiniCPM-o 4.5是9B参数多模态大模型,支持图像、视频、音频、文本输入与高质量文/语音输出。具备领先视觉理解(OpenCompass平均77.6分)、实时中英双语语音对话、全双工流式交互、高精度OCR及30+语言能力,适配CPU/GPU/国产芯片,支持本地部署与微调。(239字)
  • 02.24 11:02:36
    发表了文章 2026-02-24 11:02:36

    自进化≠自我刷题,Agent 真正的突破口是「自己造环境」?——6 位领域学者 · 7 大议题 · 2 万字圆桌观点实录

    AI AMA首期聚焦“Agent自进化”,由魔搭等联合发起,邀请翟云鹏主持及5位顶会作者深度对谈。围绕定义、泛化能力、反馈信号、评估体系等7大议题,探讨Agent如何突破“从零开始”瓶颈,实现类人经验积累与策略优化。(239字)
  • 02.24 10:51:09
    发表了文章 2026-02-24 10:51:09

    蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"

    Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
  • 02.24 10:39:36
    发表了文章 2026-02-24 10:39:36

    Qwen3.5:迈向原生多模态智能体

    除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
  • 02.24 10:21:43
    发表了文章 2026-02-24 10:21:43

    Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆

    Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
  • 02.24 10:11:25
    发表了文章 2026-02-24 10:11:25

    小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测

    2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
  • 02.24 10:01:29
    发表了文章 2026-02-24 10:01:29

    MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!

    2月13日,MiniMax发布M2.5大模型,108天内三连更!编程(SWE-Bench 80.2%)、搜索(BrowseComp 76.3%)、办公场景全面领先,开源权重已上线ModelScope,支持API调用、本地部署及工具调用。
  • 02.24 09:44:14
    发表了文章 2026-02-24 09:44:14

    FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范

    高德地图发布「FantasyWorld」——新一代几何一致世界模型,单次前向即可生成高质量视频与3D场景(深度图、点云、相机轨迹),无需后处理或逐场景优化。ICLR 2026录用,WorldScore榜首,已开源代码与模型。
  • 02.24 09:31:08
    发表了文章 2026-02-24 09:31:08

    万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度

    蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
  • 02.24 09:18:03
    发表了文章 2026-02-24 09:18:03

    全球Top下载中文开源数据集更新|OpenCSG持续打造中文高质量数据集开源底座

    OpenCSG正式发布Fineweb-Edu-Chinese V2.2数据集:覆盖预训练(1.5T tokens,质量分层)与SFT微调(143.7万条DeepSeek V3.2蒸馏问答对)全流程,严格事实锚定、支持溯源,是当前少有的高质量中文教育全栈数据解决方案。
  • 02.24 09:09:25
    发表了文章 2026-02-24 09:09:25

    GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!

    智谱发布GLM-5:开源SOTA大模型,Coding与Agent能力双强,真实编程体验媲美Claude Opus 4.5;全球AI榜单排名第四、开源第一;MIT协议开源,支持复杂系统工程与长程Agent任务。
  • 02.12 13:12:26
    发表了文章 2026-02-12 13:12:26

    蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”

    2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
  • 发表了文章 2026-04-09

    面壁开源VoxCPM 2:2B 语音基础模型 = 30国语种 + 9大方言 + 音色复刻 + 影视级音质

  • 发表了文章 2026-04-09

    GLM-5.1开源:独立工作8小时,探索长程任务上限

  • 发表了文章 2026-04-07

    Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力

  • 发表了文章 2026-04-07

    OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体

  • 发表了文章 2026-04-02

    中科天机开放华中2.5公里气象及全球12公里沙尘数据集:支持时空序列AI模型训练

  • 发表了文章 2026-04-02

    300 万对 RGB-D 深度数据集 LingBot-Depth-Dataset,正式开源!

  • 发表了文章 2026-03-26

    InternVerse具身数据平台发布,从数据供给到模型迭代,助力物理智能全链路提效

  • 发表了文章 2026-03-26

    通义实验室Fun-CineForge开源:首个支持影视级多场景配音的多模态大模型

  • 发表了文章 2026-03-16

    用 OpenJudge 搭建 AI 论文审稿工作流:从评估器到在线审稿的完整实践

  • 发表了文章 2026-03-12

    魔搭推出Twinkle: 训练即服务, 让模型训练回归算法语义

  • 发表了文章 2026-03-09

    LTX-2.3开源: 视频生成引擎级升级

  • 发表了文章 2026-03-06

    阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!

  • 发表了文章 2026-03-03

    小红书开源FireRed-OCR,2B 参数登顶文档解析榜单

  • 发表了文章 2026-03-02

    打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力

  • 发表了文章 2026-02-27

    用 4B 小模型做Code Agent的SubAgent?这个开源项目做到了

  • 发表了文章 2026-02-26

    Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力

  • 发表了文章 2026-02-25

    四款国产VLM OCR模型横评

  • 发表了文章 2026-02-24

    魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

  • 发表了文章 2026-02-24

    魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战

  • 发表了文章 2026-02-24

    0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多