Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
嵌入式开发必备!Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含(Keil MDK 5.39)
Keil C51 V9.61是一款专用于8051系列单片机的集成开发环境,支持主流厂商芯片,集编辑、编译、仿真于一体,基于μVision5平台,操作便捷。提供C编译器、汇编器、调试器等全套工具,适用于嵌入式开发。附带安装与激活教程,可实现汉化界面,提升使用体验。(237字)
CoPaw 1.0 发布:定制小模型、安全机制与多智能体全面进化
CoPaw 1.0 是 AgentScope 推出的开源个人智能助理,支持本地/云部署。具备四大核心能力:定制小模型(CoPaw-Flash)、分层安全机制、多智能体协同、ReMe 驱动的记忆管理。开箱即用,兼顾性能、隐私与可控性
Claude Code 源码泄露,升级 OpenClaw 的研究方案
一场意外泄露的Claude Code近51万行源码,为OpenClaw提供了宝贵的架构升级参考:其Cron调度、Kairos守护进程、Coordinator多智能体机制等核心设计,与OpenClaw高度契合,加速了社区对自动化、长效记忆与协同AI的研究演进。(239字)
【Seedance 2.0 技术解析】:字节跳动电影级多模态视频生成模型全景剖析
字节跳动于2026年2月发布Seedance 2.0,登顶AI视频生成Elo榜(1269分)。其首创双分支扩散Transformer(DB-DiT),实现原生音画同步、60秒2K视频、8+语言唇形对齐及物理合规建模,多模态参考支持9图+3视频+3音频,可用率达90%,标志AI视频迈入工业级应用新阶段。(239字)
GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!
智谱发布GLM-5:开源SOTA大模型,Coding与Agent能力双强,真实编程体验媲美Claude Opus 4.5;全球AI榜单排名第四、开源第一;MIT协议开源,支持复杂系统工程与长程Agent任务。
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
大模型实战系列第一篇。拒绝晦涩理论,直接上手!我会带着各位友人们零基础安装 Ollama,利用国内 ModelScope 极速下载模型,详解服务端口配置与 Python 脚本调用,涵盖显存计算与常见避坑指南。
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
LTX-2.3开源: 视频生成引擎级升级
Lightricks开源LTX-2.3音视频大模型:重建VAE提升细节锐度,文本连接器扩容4倍增强Prompt遵循,大幅优化I2V运动自然性与音频质量,并首次原生支持1080×1920竖版视频生成。22B参数,支持文生视频、图生视频等多任务。
见证物理世界的觉醒:《EAI-100 具身智能领域2025年度百项代表性成果与人物》重磅发布
2025年具身智能元年,魔搭社区等八大机构联合发布《EAI-100年度榜单》及白皮书:涵盖20位先锋/新锐人物、十大突破/开源/数据集等六大硬核项目,全景呈现中国具身智能从实验室走向产线的里程碑成果。(239字)
一文吃透 Spring AI Alibaba + MCP:服务端搭建 + 客户端调用全流程
掌握 Spring AI Alibaba 与 MCP 协议实战教程!本文详解 MCP 服务端搭建、客户端配置,教你封装本地工具为 MCP 服务,实现大模型安全调用外部接口,附完整代码与测试步骤,快速打通 AI 工具调用链路!
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
OpenClaw: The Open-Source AI Agent That's Changing How We Work and Live
If you've been following the AI space lately, you've probably heard the buzz about OpenClaw. This open-source project, affectionately nicknamed "Lobster" by the community, has taken the tech world by storm since its launch in early 2026, racking up over 260,000 stars on GitHub and becoming one of th
MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!
2月13日,MiniMax发布M2.5大模型,108天内三连更!编程(SWE-Bench 80.2%)、搜索(BrowseComp 76.3%)、办公场景全面领先,开源权重已上线ModelScope,支持API调用、本地部署及工具调用。
Spring AI Alibaba 人工介入实战|Human-in-the-Loop 让 AI 更可靠
本文详解 Spring AI Alibaba 人工介入 Hook 实战,通过 Human-in-the-Loop 实现 AI 智能体执行暂停、人工审批与流程恢复,让 AI 应用更安全可控。
Silly Tavern 免费API保姆级教学
本指南详解Windows下安装SillyTavern全流程:先安装Node.js与Git,再克隆仓库(推荐Gitee镜像),双击Start.bat启动;接着配置OpenAI兼容API(如Canopy Wave),填入Key与端点;最后下载导入角色卡,即可开启AI角色对话体验。(239字)
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
本文详细讲解 Spring AI Alibaba Skill 技能体系,从核心概念、组件解析到实战开发,手把手教你基于 ReAct 智能体实现技能发现、工具调用与 PDF 信息提取,助你快速构建可扩展、可插拔的企业级 AI 智能体应用。
Seedance vs Sora vs Kling:AI 视频生成模型深度对比
本文深度解析Sora、Kling、Runway Gen-3、Seedance等主流文生视频模型的底层原理、性能差异与生产适配性,直击开发者选型难、API碎片化、成本失控三大痛点,提供统一接入方案、智能路由策略与高并发部署实战指南。(239字)
video-subtitle-remover(VSR)--开源AI去字幕方案深度解析
VSR(video-subtitle-remover)是一款开源AI视频去字幕工具,支持本地运行,无需上传数据。它融合STTN、LaMa、ProPainter三大前沿修复模型,可智能检测并擦除硬字幕/水印,保持原分辨率与画质。兼容CUDA/DirectML,适配NVIDIA/AMD/Intel显卡,兼顾隐私性、可控性与高性能。
魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战
通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
阶跃星辰发布开源大模型Step 3.5 Flash:专为Agent设计,推理速度达350 TPS,支持256K长上下文,采用稀疏MoE+MTP-3+混合注意力架构,在数学与Agent任务上媲美闭源模型,现已全量开放使用。
[大模型实战 02] 图形化的大模型交互: Open WebUI部署指南
本文教你用 Docker 一键部署 Open WebUI,为本地 Ollama 模型打造媲美 ChatGPT 的图形化界面:支持流畅对话、本地知识库(RAG)检索增强、自定义角色(Agent),全程私有化、零数据上传,10分钟即可启用!
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
Qwen3-Coder-Next开源!推动小型混合模型在智能体编程上的边界
Qwen团队开源Qwen3-Coder-Next:基于Qwen3-Next-80B的轻量级编程智能体模型,采用混合注意力+MoE架构,通过可执行任务合成与强化学习训练,在SWE-Bench Verified达70%+,以仅3B激活参数媲美10–20倍大模型,兼顾高性能与低成本部署。(239字)
通义实验室开源 PrismAudio:518M 参数全面超越 5B 量级的视频配音模型
通义实验室开源PrismAudio——轻量高效(518M参数、0.63s延时)的视频配音(V2A)模型,在语义、时序、美学、空间及主观评分五项指标上全面超越5B级方法。首创四路专项CoT模块+多维强化学习,搭配Fast-GRPO加速训练,已开源模型与代码。
魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战
通义千问推出Qwen3-TTS系列开源语音模型,支持中英日韩等10种语言,具备声音克隆、情感适配与高保真端到端合成能力;结合Intel OpenVINO™可在CPU上高效推理,无需GPU,轻松部署于边缘设备。(239字)
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。
分布式智能体|A2A Agent实战
详解 A2A Agent 分布式部署:Spring AI Alibaba 整合 Nacos,从依赖配置、Agent 注册到远程调用,完整实操步骤,新手也能快速上手
支付宝支付集成skill首发上线魔搭,开发者三步接入支付
支付宝发布国内首个“支付集成Skill”,开发者通过自然语言即可在Vibe Coding中零代码接入支付宝收款功能,支持快速构建电商应用(如卖猫抓板)。配套升级沙箱环境,安全高效验证支付全流程。
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
免费!文本表格不会总结、分析?文本表格可视化!帮你轻松解决困扰,保姆级级教程。【附Coze工作流】
本文介绍了如何利用“扣子”平台创建资源,通过可视化工作流处理并分析文档、表格、PDF等内容,帮助用户快速获取文件核心信息。内容涵盖登录、资源创建、工作流配置及运行操作,适用于多种文件格式,如CSV、Excel、PDF等。
InCoder-32B开源:320亿参数工业代码基座,保住通用代码能力,工业代码全线领先
北航联合发布InCoder-32B工业代码大模型,专攻芯片设计、GPU内核、嵌入式、编译器与3D建模等硬核领域。基于250万条真实执行验证数据训练,全量权重开源,通用能力不降反升,多项工业基准大幅领先。
通义实验室Fun-CineForge开源:首个支持影视级多场景配音的多模态大模型
通义实验室开源Fun-CineForge——首个支持多说话人、强时间对齐的多模态电影配音大模型。首创引入时间模态,结合视觉、文本、音频与时间信息,实现高精度唇形同步、音色克隆与情感表达,并开源高质量中文影视配音数据集CineDub-CN及端到端构建流程。(239字)
Qwen3-VL-Embedding & Qwen3-VL-Reranker:统一多模态表征与排序
通义千问Qwen团队于2025年1月8日推出多模态模型新成员:Qwen3-VL-Embedding与Qwen3-VL-Reranker,基于Qwen3-VL构建,支持文本、图像、视频等多模态统一表示与跨模态检索,在图文匹配、视觉问答等任务中表现卓越,具备高精度、多语言、易集成等优势,助力全球开发者构建高效多模态应用。
北大重磅开源Helios!首个14B单卡实时长视频生成模型
北大与字节联合发布Helios:首个单卡H100上达19.5 FPS的14B参数视频生成模型,支持分钟级高质量T2V/I2V/V2V生成,突破长视频漂移与速度瓶颈,开源可商用。(239字)
使用PHP对接美股股票市场API 实时数据、IPO和K线(Kline)的PHP对接方案
StockTV API 面向开发者,提供美股实时行情、历史K线(5分钟至1月)、IPO日历等数据,支持HTTP/WS双接入,全接口返回标准JSON,含纽交所(ex=1)与纳斯达克(ex=2)标识。(239字)
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
蚂蚁·安诊儿医疗大模型已正式上线百宝箱,让靠谱的医疗咨询触手可及
蚂蚁百宝箱正式上线「蚂蚁·安诊儿医疗大模型(AntAngelMed)」——迄今参数规模最大(100B)的开源医疗模型,基于百灵MoE架构,HealthBench、MedAIBench等权威评测全面领先。支持自然语言交互,提供专业、实时、可信的健康咨询与急症辅助,开发者可零门槛调用API快速搭建医疗应用。(239字)
Python 学习资源精选:从入门到精通的高效清单
本文系统梳理Python从入门到精通的学习路径,分阶段推荐优质资源:入门夯实语法,进阶掌握核心特性,定向深耕Web、数据、AI等领域,最终提升工程化能力。精选视频、书籍、项目与工具,助力高效学习。
🔈大模型玩家「合体」指南:知乎 × 魔搭社区 账号绑定功能正式上线啦
知乎与魔搭(ModelScope)账号正式打通!开发者可一键绑定,同步展示开源模型、数据集至知乎主页,实现“实践+讨论”双链路表达。绑定后还能加入圈子赢限定勋章及周边!
Claude Skills的开源实现
Claude推出Skills系统,让AI按需加载专业能力。受此启发,我在开源Minion框架中实现了兼容版本:通过声明式SKILL.md定义技能,支持PDF、Excel等文档处理,实现动态加载、分层搜索与智能注册,降低上下文开销,提升效率。项目支持多LLM、可定制、易扩展,推动构建开放的AI Agent技能生态。