modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区361

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布384篇文章
187条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年02月

  • 02.24 11:04:27
    发表了文章 2025-02-24 11:04:27

    PromptScope: 一个灵活高效的In-Context Training框架

    PromptScope 是一个同时支持中英文的 In-Context Training 框架,专为大型语言模型(LLM)性能调优设计。
  • 02.24 11:03:15
    发表了文章 2025-02-24 11:03:15

    阿里国际Ovis2系列模型开源:多模态大语言模型的新突破

    Ovis是阿里巴巴国际化团队提出的新型多模态大模型架构,通过巧妙地将视觉和文本嵌入进行结构化对齐,为解决模态间嵌入策略差异这一局限性提供了方案。
  • 02.19 19:00:27
    发表了文章 2025-02-19 19:00:27

    SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!

    当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个
  • 02.19 16:15:56
    发表了文章 2025-02-19 16:15:56

    王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

    2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。
  • 02.19 14:09:21
    发表了文章 2025-02-19 14:09:21

    GDC2025 | 探索最前沿的开源大模型技术与创新,2025全球开发者先锋大会,上海见!

    2025全球开发者先锋大会将于2月21-23日在徐汇盛大召开!大会以“模塑全球 无限可能”为主题,定位“社区的社区”,旨在促进基模、垂模、语料、算力、基金、开发者、软件服务等产业生态深度对接。
  • 02.18 11:44:38
    发表了文章 2025-02-18 11:44:38

    ModelScope魔搭25年2月版本发布月报

    新春佳节的鞭炮声已经渐渐远去,在刚刚过去的一个月里,小鲸鱼给全球的开发者带来了一个不平凡的春节。DeepSeek-R1一系列开源模型的发布,给大家带来了惊喜和震动。所有人的热情,也给ModelScope社区带来了前所未见的巨大下载需求和流量,在这个月里,我们进行了数次紧急扩容和线上优化,尽量为大家提供更好的支持与服务。非常感谢大家的陪伴和理解,我们会持续进行平台优化和开源工具的建设,服务好整个开源社区。
  • 02.18 11:41:03
    发表了文章 2025-02-18 11:41:03

    GDC2025 | DeepSeek - AI PC 本地部署本周六向你发起挑战!

    本次活动以“OpenVINO™ 极客工坊 - 用AI PC点燃你的GenAI创意引擎!”为主题,特邀武卓博士与杨亦诚老师,为大家带来精彩的技术分享与动手实践。
  • 02.17 11:43:03
    发表了文章 2025-02-17 11:43:03

    GDC2025 | DeepSeek-Qwen 模型蒸馏极限挑战赛,来了!(预赛报名)

    欢迎您关注由魔搭社区 x SwanLab平台联合举办的 DeepSeek-Qwen 模型蒸馏极限挑战赛!本赛事将作为2025全球开发者先锋大会(GDC)的活动之一,欢迎具备大模型训练/微调实战经验的独立开发者前来挑战!详细报名规则见后文。
  • 02.17 11:39:09
    发表了文章 2025-02-17 11:39:09

    魔搭社区模型速递(1.19-2.15)

    魔搭ModelScope本期社区进展:6205个模型,823个数据集,333个创新应用, 26篇内容。
  • 02.17 11:36:50
    发表了文章 2025-02-17 11:36:50

    C-3PO:多智能体强化学习赋能检索增强生成

    检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。
  • 02.17 11:35:23
    发表了文章 2025-02-17 11:35:23

    R1类模型推理能力评测手把手实战

    随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。
  • 02.14 10:46:40
    发表了文章 2025-02-14 10:46:40

    R1类模型推理能力评测手把手实战

    随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。
  • 02.13 09:58:54
    发表了文章 2025-02-13 09:58:54

    RWKV-7 2.9B 开源发布!纯 RNN 无 KV cache,支持世界所有语言

    2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。
  • 02.13 09:57:56
    发表了文章 2025-02-13 09:57:56

    AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

    随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。
  • 02.12 15:32:08
    发表了文章 2025-02-12 15:32:08

    AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

    AAAI 2025 论文 S5VH 提出基于选择性状态空间模型的高效自监督视频哈希方法,通过双向 Mamba 层和 Self-Local-Global 学习范式,显著提升视频检索性能与推理效率。
  • 02.11 11:33:26
    发表了文章 2025-02-11 11:33:26

    又又又上新啦!魔搭免费模型推理API支持DeepSeek-R1,Qwen2.5-VL,Flux.1 dev及Lora等

    通过API接口进行标准化,能让开源模型以更加轻量和迅速的方式被开发者使用起来,并集成到不同的AI应用中。魔搭通过API-Inference,支持广大开发者无需本地的GPU和环境设置,就能轻松的依托不同开源模型的能力,展开富有创造力的尝试,与工具结合调用,来构建多种多样的AI应用原型。
  • 02.10 11:10:51
    发表了文章 2025-02-10 11:10:51

    0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1

    近期,随着DeepSeek-R1爆火,学术界掀起一股复现DeepSeek-R1的浪潮,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。
  • 02.08 14:26:31
    发表了文章 2025-02-08 14:26:31

    可控文生图:EliGen控制实体的位置细节变化

    为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。
  • 02.08 14:24:10
    发表了文章 2025-02-08 14:24:10

    DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践

    Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。
  • 02.05 18:45:40
    发表了文章 2025-02-05 18:45:40

    阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结

    在数字化时代,新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——CH RONOS,源自希腊神话中的时间之神柯罗诺斯,该框架通过迭代多轮的自我提问方式,结合检索增强生成技术,从互联网上检索相关事件信息,并生成时间顺序的新闻摘要,为新闻时间线摘要生成提供了一种全新的解决方案。
  • 02.05 18:42:40
    发表了文章 2025-02-05 18:42:40

    浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界

    随着大模型(LLMs)的发展,AI 写作取得了较大进展。然而,现有的方法大多依赖检索知识增强生成(RAG)和角色扮演等技术,其在信息的深度挖掘方面仍存在不足,较难突破已有知识边界,导致生成的内容缺乏深度和原创性。
  • 02.05 17:16:19
    发表了文章 2025-02-05 17:16:19

    Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

    今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。
  • 02.05 17:11:05
    发表了文章 2025-02-05 17:11:05

    Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型

    两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
  • 02.05 17:01:34
    发表了文章 2025-02-05 17:01:34

    春节来司南大模型对战竞技场,pick你的专属大模型搭档

    春节的脚步渐近,街头巷尾已经开始洋溢着浓浓的节日气氛,准备迎接新年的到来。怎么书写创意拉满的春联?年夜饭怎么规划才完美?什么样的祝福更有新意?家庭聚会、出游如何安排?
  • 02.05 16:58:25
    发表了文章 2025-02-05 16:58:25

    MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率

    本文提出了一种高效的多模态大模型,多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余,并且大模型的大部分输入令牌是视觉tokens,这极大程度上影响了多模态大模型推理效率。

2025年01月

  • 01.23 10:04:49
    发表了文章 2025-01-23 10:04:49

    统一多模态Embedding, 通义实验室开源GME系列模型

    随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。
  • 01.22 10:27:36
    发表了文章 2025-01-22 10:27:36

    Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

    近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
  • 01.22 10:25:08
    发表了文章 2025-01-22 10:25:08

    OpenCSG开源SmolTalk Chinese数据集

    近年来,人工智能(AI)领域尤其是自然语言处理(NLP)技术的迅猛发展,正在深刻改变着各行各业的运作模式。从智能客服到内容生成,从自动翻译到智能搜索,NLP技术的广泛应用使得语言模型在全球范围内的重要性日益凸显。与此密切相关的预训练模型(Pre-trained Models),凭借在海量数据上的训练积累了丰富的知识,成为NLP技术进步的核心支柱。然而,预训练模型的成功在很大程度上依赖于其背后数据集的质量。
  • 01.21 10:06:27
    发表了文章 2025-01-21 10:06:27

    VITA-1.5: 迈向GPT-4o级实时视频-语音交互

    近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。
  • 01.20 10:42:09
    发表了文章 2025-01-20 10:42:09

    OpenCSG开源最大中文合成数据集Chinese Cosmopedia

    近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。
  • 01.20 10:41:19
    发表了文章 2025-01-20 10:41:19

    通义千问团队开源全新的过程奖励模型PRM!

    近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。
  • 01.20 10:39:50
    发表了文章 2025-01-20 10:39:50

    魔搭社区每周速递(1.5-1.18)

    🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容
  • 01.20 10:38:17
    发表了文章 2025-01-20 10:38:17

    ModelScope魔搭25年1月版本发布月报

    随着2025年帷幕的缓缓拉开,ModelScope团队怀着新年新气象的美好期许,为广大开发者带来了1月份的重磅更新。
  • 01.17 11:24:36
    发表了文章 2025-01-17 11:24:36

    MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!

    MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。
  • 01.17 11:14:09
    发表了文章 2025-01-17 11:14:09

    InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!

    1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,InternLM3首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。
  • 01.15 13:44:20
    发表了文章 2025-01-15 13:44:20

    Valley2,基于电商场景的多模态大模型

    Valley2是一种新颖的多模态大型语言模型,旨在通过可扩展的视觉-语言设计增强各个领域的性能,并拓展电子商务和短视频场景的实际应用边界。
  • 01.14 11:07:27
    发表了文章 2025-01-14 11:07:27

    微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!

    微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。
  • 01.13 16:14:49
    发表了文章 2025-01-13 16:14:49

    通义千问Qwen征文活动获奖公布

    Qwen征文获奖公布啦!
  • 01.10 10:54:48
    发表了文章 2025-01-10 10:54:48

    共学 | 2025年,更加有效地搭建Agent

    2024年末,Anthropic写了一篇叫做“Building effective Agents”的文章,针对如何有效的搭建Agent,常见Agent工作流程的几种范式,以及对现在的Code Agent工作模式做了详细的解读。本文结合cookbook+ModelScope的免费Qwen API做了一些中文示例的实践,来更好的理解这篇文章。
  • 01.09 09:53:32
    发表了文章 2025-01-09 09:53:32

    DashInfer-VLM,多模态SOTA推理性能,超vLLM!

    DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。
  • 01.08 10:58:34
    发表了文章 2025-01-08 10:58:34

    麦橘超然上线魔搭社区,免费生图和训练,文末返图有奖

    麦橘超然是麦橘制作的基于Flux.1的模型,可以生成高度摄影写实和富有光影感的图片,尤其擅长表现人物的脸部和肌肤细节。麦橘之前的作品麦橘写实是各大文生图开源站点最受欢迎的模型之一。
  • 01.07 11:07:48
    发表了文章 2025-01-07 11:07:48

    使用 modelscope-studio 构建你的 Gradio 应用

    modelscope-studio是一个基于 Gradio 的三方组件库,它可以为开发者提供更定制化的界面搭建能力和更丰富的组件使用形式。
  • 01.07 10:48:23
    发表了文章 2025-01-07 10:48:23

    TransferTOD:利用LLM解决TOD系统在域外场景槽位难以泛化的问题

    任务型对话系统旨在高效处理任务导向的对话,如何利用任务型对话系统准确、高效、合理地完成信息采集的工作一直是一项关键且具有挑战性的任务。
  • 01.06 10:31:16
    发表了文章 2025-01-06 10:31:16

    魔搭社区每周速递(12.29-1.4)

    魔搭ModelScope本期社区进展:828个模型,72个数据集,61个创新应用,9篇内容
  • 01.03 20:40:49
    发表了文章 2025-01-03 20:40:49

    AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉

    魔搭社区LoRA创意挑战赛月度赛第三期来啦! 1月赛题揭晓:电影风格模型训练大赛
  • 01.03 16:54:26
    发表了文章 2025-01-03 16:54:26

    智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

    11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。
  • 01.03 16:53:16
    发表了文章 2025-01-03 16:53:16

    人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感

    提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。
  • 01.02 15:30:05
    发表了文章 2025-01-02 15:30:05

    新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用

    你是否想过自己也能动手搭建一个AI应用?现在,这个目标触手可及!
  • 发表了文章 2025-11-27

    字节推出VeAgentBench + veADK,打造可评估、可复现的智能体开发新范式

  • 发表了文章 2025-11-26

    杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

  • 发表了文章 2025-11-26

    混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA

  • 发表了文章 2025-11-26

    新的LLM交互模式!大模型终于能自己生成交互式 UI 了

  • 发表了文章 2025-11-25

    腾讯混元 HunyuanVideo 1.5 开源!

  • 发表了文章 2025-11-24

    AgentEvolver:让智能体系统学会「自我进化」

  • 发表了文章 2025-11-24

    Meta SAM3开源:让图像分割,听懂你的话

  • 发表了文章 2025-11-21

    Meta SAM3开源:让图像分割,听懂你的话

  • 发表了文章 2025-11-20

    MemOS 正式上线魔搭社区 MCP 广场,让你的智能体拥有「长期记忆」

  • 发表了文章 2025-11-19

    ModelScope魔搭社区发布月报 -- 25年11月

  • 发表了文章 2025-11-18

    码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型

  • 发表了文章 2025-11-17

    腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻

  • 发表了文章 2025-11-14

    美团 LongCat 团队发布全模态一站式评测基准UNO-Bench:揭示单模态与全模态能力的组合规律

  • 发表了文章 2025-11-12

    仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

  • 发表了文章 2025-11-11

    阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

  • 发表了文章 2025-11-10

    Mcore Bridge:迈向Megatron训练"零门槛"时代

  • 发表了文章 2025-11-10

    ChatPPT+魔搭社区:MCP 2.0全面升级!

  • 发表了文章 2025-11-04

    超长序列并行之Ulysses + Ring-Attention技术原理与实现

  • 发表了文章 2025-11-03

    Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!

  • 发表了文章 2025-10-31

    Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多