ModelScope魔搭25年7月发布月报
七月流火,这个夏天火热的开场已然揭开。6月30号,我们在北京举办了首届魔搭开发者大会(ModelScope DevCon 2025),邀请了国内外知名的开源模型,以及头部开源工具的研发团队,与广大开发者共聚一堂进行分享。顶尖的AI 模型首次从线上 Hub走进线下盛会,为大家呈现了一场“模型全明星”盛会。同时我们还邀请了社区开发者参加我们的“搭友之夜”(aka 大规模面基大会)。大会分享场场爆满,现场只能用一句话来描述:“好~多~人~啊”,不提前占位根本挤不进去~~
OpenCSG中文数据集助推CMU无分词器模型登顶SOTA
语言模型正迎来划时代的技术跃迁!传统Transformer架构依赖分词器(tokenizer)的范式即将被颠覆,一种全新的端到端建模方式正在崛起。
RM-Gallery: 一站式奖励模型平台
近年来,大型语言模型(LLMs)发展迅速,比如 ChatGPT、Qwen、Claude、 Llama。这些模型最初的能力来自预训练规模的扩展(pre-training scaling),即通过 “next-token prediction” 的任务,在海量语料上训练,从而获得通用能力。但是面对具体场景,由于场景任务目标不一定和通用能力匹配(比如对齐场景),所以预训练模型表现会有一些不足。为了在预训练之后进一步优化大型语言模型,近年来的研究开始转向训练后和测试时的规模扩展,其中奖励模型起着关键作用。
圈子系统公众号app小程序系统源码圈子系统带即时通讯 多级圈子系统源码 兴趣小组系统开源 私密圈子系统代码 会员制社区系统
本圈子系统解决方案提供即时通讯、多级圈子、兴趣小组、私密社区及会员制管理功能。支持开源与商业方案,推荐ThinkSNS+、EasyClub及OpenFire等系统,并提供前后端技术选型建议,助力快速搭建社交平台。
Kimi K2 开源发布:擅长代码与 Agentic 任务!
今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。
TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人
GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。
【AI编程】AI+高德MCP不到10分钟搞定上海三日游
本文介绍了小白如何通过AI编程工具(如Trae)快速开发应用并实现技术变现。内容涵盖AI编程用途、工具准备、高德地图开发者权限获取、AI工具配置及实战生成旅游攻略与打印页面,帮助零基础用户轻松入门AI编程。
蚂蚁的可视化图表 MCP 首发上线!支持超过 25 种的可视化图表生成,也支持生成路书!
蚂蚁 AntV 团队推出可视化图表 MCP 插件,支持 25+ 种图表类型,涵盖统计图、关系图及地图标注、路径地图等,用户只需输入文本即可生成炫酷图表,大幅简化数据可视化流程,提升数据展示效率。
AFAC2025金融智能创新大赛启动仪式圆满成功,汇聚各方力量共启创新赛事
7月3日,在来自政府、高校、企业和行业协会的各界嘉宾共同见证下,2025科技智能创新大赛启动仪式暨AFAC2025金融智能创新大赛合作伙伴授牌仪式于上海举行,并取得圆满成功。
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
4月11日,OpenGVLab开源发布InternVL3系列多模态大模型,涵盖1B至78B共7个尺寸。相比InternVL 2.5,其在多模态感知与推理能力上表现更优,并新增工具使用、GUI代理等功能。得益于原生多模态预训练,文本性能超越Qwen2.5系列。
2025魔搭MCP&Agent挑战赛正式启动!50万总奖池!
2025魔搭MCP&Agent挑战赛正式拉开帷幕!这是一场聚焦MCP协议生态与Agent应用落地的顶级开发者盛会,旨在推动工具标准化与智能体场景创新,探索AI开发者在终端硬件的创新实践。
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型
近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限
AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排
文心4.5系列模型,正式开源!
6月30日,百度文心大模型4.5正式开源,魔搭社区在开源首日快速接入文心大模型,提供真正可用、好用、可落地的大模型解决方案,现已面向广大企业、开发者下载体验!
腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,性能优异,激活参数仅13B
6月27日,腾讯混元宣布开源混元-A13B模型,总参数800亿,激活参数仅130亿,在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销。这意味着,开发者可以用更低门槛的方式获得更好的模型能力。
MCP Server 的开发实践- Alibaba Cloud RDS OpenAPI MCP Server
本文介绍了基于阿里云 RDS OpenAPI 实现的 MCP Server(Model Context Protocol Server)架构与开发实践。该中间件使大语言模型(LLM)可通过自然语言调用 RDS 服务,实现数据库实例的创建、查询、配置等操作。通过 OpenAPI 接入、SQL 执行与大模型交互三大模块的协同工作,MCP Server 实现了 AI 助手对云数据库的自动化管理,提升易用性与安全性。
【HarmonyOS next】ArkUI-X新闻热搜聚合App【进阶】
本项目基于ArkUI-X框架,将鸿蒙(HarmonyOS)下的新闻热搜聚合App无缝迁移至iOS平台。采用ArkUI开发,结合@kit.NetworkKit实现网络请求,利用@ObservedV2与@Trace装饰器进行数据绑定,适配iOS界面布局与权限配置,完成跨平台热榜应用构建。
从0到1部署大模型,计算巢模型市场让小白秒变专家
阿里云计算巢模型市场依托阿里云弹性计算资源,支持私有化部署,集成通义千问、通义万象、Stable Diffusion等领先AI模型,覆盖大语言模型、文生图、多模态、文生视频等场景。模型部署在用户云账号下,30分钟极速上线,保障数据安全与权限自主控制,适用于企业级私有部署及快速原型验证场景。
ms-swift 部分命令行参数说明
本资源介绍了机器学习训练中的关键参数设置及其影响,包括训练轮数、批量大小、学习率、梯度累积、模型微调等,并提供了针对不同任务和硬件配置的推荐值,帮助提升模型训练效率与性能。

ms-swift 微调 internlm3-8b-instruct(论文分类任务)
本文介绍了使用InternLM系列模型进行论文分类任务的微调全过程,包括环境配置、数据准备、预训练与SFT(监督微调)、权重合并、模型评测及上传至魔搭社区等步骤。使用ms-swift框架和Lora训练方法,在具备40GB显存的A100 GPU环境下完成训练,并通过Swift工具进行效果评估。
魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级
魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级,不升级无法使用,安装python扩展包的时候一直停留在installing
手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流
本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
无缝体验设计、一键直达的奥秘
Apptrace 是一款强大的工具,支持传参安装与一键拉起功能,优化用户体验。本文通过四个实战案例展示其应用:1) 电商深度链接营销,实现商品页直达;2) 游戏邀请系统,追踪来源并自动奖励;3) 新闻个性化内容推送,提升打开速度;4) 企业应用无缝登录,保障安全高效。同时总结最佳实践,包括优雅降级、参数加密、统计分析等,助力企业提升用户转化率与体验流畅度。
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk
UGPhysics:本科物理推理评估基准发布,助力AI+Physics交叉研究
近年来,人工智能快速发展,大语言模型(LLM)在数学、代码等领域展现出强大的推理和生成能力,正在被广泛应用于各种场景。
国内主流电商淘宝+京东+1688api数据接口实操
这是一套用于获取淘宝、京东和1688电商平台数据的Python实现方案。通过定义统一的API基类,封装了请求流程与异常处理机制,包括请求超时、频率限制及认证失败等。针对各平台特性,分别实现了签名生成、参数准备与接口调用功能,如商品搜索、详情查询和订单列表获取等。使用前需申请各平台开发者账号以获取AppKey和AppSecret,并根据实际需求调整代码配置与业务逻辑,同时注意控制请求频率避免限流。
与阿里合作的《人工智能(导论)》出版编辑中
《人工智能导论——深度学习大模型基础》由赵卫东编著,清华大学出版社出版。本书旨在帮助读者理解深度学习与大模型技术的底层逻辑,通过机器视觉、语音处理及自然语言处理等章节,结合实际应用场景,深入浅出地讲解相关理论。书中引入低代码开发平台和云端实验室资源,助力读者实践所学。无论专业背景如何,本书都能成为进入AI领域的理想入门书籍。特别感谢阿里云及参与编校工作的同学们的支持。
通义点金案例分享:表格修订
本文介绍了在通义点金平台搭建知识库时遇到的表格解析问题及解决方案。问题表现为表格数据被独立存储为chunk,缺少前后说明文字和表名信息,导致大模型回答错乱。解决方法是通过API将前后chunk内容合并到table类型的chunk中,补充表名和说明信息。具体步骤包括获取文档chunk列表、按顺序排序、修订table类型chunk并更新。示例展示了修订前后效果,同时说明了点金平台近期更新对部分问题的优化情况。
合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源
上海人工智能实验室开源了生成式世界模型AETHER,该模型仅用合成数据训练,却能在真实环境中展现强大的零样本泛化能力。AETHER首创「重建—预测—规划」一体化框架,融合几何重建与生成建模,大幅提升模型在动态环境中的决策、规划和预测能力。其核心技术包括目标导向视觉规划、4D动态重建和动作条件视频预测,实验结果表明其性能达到或超越现有SOTA水平。论文、模型及项目主页均已开源。
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。