Hermes Agent爆火,聊聊与OpenClaw 到底区别在哪
本文对比近期爆火的Hermes Agent与OpenClaw两大AI Agent框架,从设计理念、记忆系统、技能生成、安全机制等维度解析差异,分析适用场景与互补用法,帮你快速判断哪款更适合自己的自动化需求。
嵌入式开发必备!Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含(Keil MDK 5.39)
Keil C51 V9.61是一款专用于8051系列单片机的集成开发环境,支持主流厂商芯片,集编辑、编译、仿真于一体,基于μVision5平台,操作便捷。提供C编译器、汇编器、调试器等全套工具,适用于嵌入式开发。附带安装与激活教程,可实现汉化界面,提升使用体验。(237字)
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
【Seedance 2.0 技术解析】:字节跳动电影级多模态视频生成模型全景剖析
字节跳动于2026年2月发布Seedance 2.0,登顶AI视频生成Elo榜(1269分)。其首创双分支扩散Transformer(DB-DiT),实现原生音画同步、60秒2K视频、8+语言唇形对齐及物理合规建模,多模态参考支持9图+3视频+3音频,可用率达90%,标志AI视频迈入工业级应用新阶段。(239字)
MiniMax M2.7开源: 模型开始迭代自己了!
MiniMax M2.7正式开源!作为M2系列新一代旗舰,首次实现“模型参与自我迭代”范式:自主驱动RL训练、优化Harness架构。软件工程(SWE-Pro 56.22%)、专业办公(GDPval-AA ELO 1495)、互动娱乐能力全面跃升,支持SGLang/vLLM/Transformers本地部署。
LTX-2.3开源: 视频生成引擎级升级
Lightricks开源LTX-2.3音视频大模型:重建VAE提升细节锐度,文本连接器扩容4倍增强Prompt遵循,大幅优化I2V运动自然性与音频质量,并首次原生支持1080×1920竖版视频生成。22B参数,支持文生视频、图生视频等多任务。
GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!
智谱发布GLM-5:开源SOTA大模型,Coding与Agent能力双强,真实编程体验媲美Claude Opus 4.5;全球AI榜单排名第四、开源第一;MIT协议开源,支持复杂系统工程与长程Agent任务。
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
ERNIE-Image 8B开源:8B参数实现顶级文生图与精准文字渲染
百度文心大模型开源ERNIE-Image(8B参数单流DiT文生图模型),24GB显存即可运行,指令遵循与文字渲染能力领先开源模型,擅长海报、漫画分镜等强结构化生成;同步推出仅8步推理的ERNIE-Image Turbo。模型与代码已全开源,支持魔搭快速体验。
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
大模型实战系列第一篇。拒绝晦涩理论,直接上手!我会带着各位友人们零基础安装 Ollama,利用国内 ModelScope 极速下载模型,详解服务端口配置与 Python 脚本调用,涵盖显存计算与常见避坑指南。
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战
通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
video-subtitle-remover(VSR)--开源AI去字幕方案深度解析
VSR(video-subtitle-remover)是一款开源AI视频去字幕工具,支持本地运行,无需上传数据。它融合STTN、LaMa、ProPainter三大前沿修复模型,可智能检测并擦除硬字幕/水印,保持原分辨率与画质。兼容CUDA/DirectML,适配NVIDIA/AMD/Intel显卡,兼顾隐私性、可控性与高性能。
Silly Tavern 免费API保姆级教学
本指南详解Windows下安装SillyTavern全流程:先安装Node.js与Git,再克隆仓库(推荐Gitee镜像),双击Start.bat启动;接着配置OpenAI兼容API(如Canopy Wave),填入Key与端点;最后下载导入角色卡,即可开启AI角色对话体验。(239字)
LingBot-Map 正式开源!仅用普通摄像头,让机器人实现实时流式三维重建
灵波团队开源LingBot-Map:首个纯自回归式流式三维重建模型,仅需普通RGB摄像头,即可实时完成相机位姿估计与场景三维建图,20FPS稳定推理,精度、效率、长时稳定性全面领先,填补实时空间感知关键技术空白。
MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!
2月13日,MiniMax发布M2.5大模型,108天内三连更!编程(SWE-Bench 80.2%)、搜索(BrowseComp 76.3%)、办公场景全面领先,开源权重已上线ModelScope,支持API调用、本地部署及工具调用。
免费!文本表格不会总结、分析?文本表格可视化!帮你轻松解决困扰,保姆级级教程。【附Coze工作流】
本文介绍了如何利用“扣子”平台创建资源,通过可视化工作流处理并分析文档、表格、PDF等内容,帮助用户快速获取文件核心信息。内容涵盖登录、资源创建、工作流配置及运行操作,适用于多种文件格式,如CSV、Excel、PDF等。
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。
[大模型实战 02] 图形化的大模型交互: Open WebUI部署指南
本文教你用 Docker 一键部署 Open WebUI,为本地 Ollama 模型打造媲美 ChatGPT 的图形化界面:支持流畅对话、本地知识库(RAG)检索增强、自定义角色(Agent),全程私有化、零数据上传,10分钟即可启用!
Seedance vs Sora vs Kling:AI 视频生成模型深度对比
本文深度解析Sora、Kling、Runway Gen-3、Seedance等主流文生视频模型的底层原理、性能差异与生产适配性,直击开发者选型难、API碎片化、成本失控三大痛点,提供统一接入方案、智能路由策略与高并发部署实战指南。(239字)
Qwen3-VL-Embedding & Qwen3-VL-Reranker:统一多模态表征与排序
通义千问Qwen团队于2025年1月8日推出多模态模型新成员:Qwen3-VL-Embedding与Qwen3-VL-Reranker,基于Qwen3-VL构建,支持文本、图像、视频等多模态统一表示与跨模态检索,在图文匹配、视觉问答等任务中表现卓越,具备高精度、多语言、易集成等优势,助力全球开发者构建高效多模态应用。
戴盟联合数十家头部机构,发布全球最大规模含触觉全模态物理世界数据集
4月15日,戴盟机器人发布全球最大含触觉全模态具身数据集Daimon-Infinity,年内规模将达数百万小时、近十亿条数据。首批10000小时高质量开源数据已上线魔搭社区,覆盖80+真实场景、2000+任务,显著提升模型训练效率10倍。
可计算元认知文本分析在细胞生物学中的语义基线构建与边界信号检测
背景:科学研究中的“范式”往往是隐性的、难以量化的;而研究论文正是范式的全部语言载体。 目的:构建细胞生物学的语义基线,并系统检测该领域的边界信号(阈值、开关、检查点等),验证可计算元认知框架在生物学中的适用性。 结论:本文首次在细胞生物学构建了系统的语义基线,证实了可计算元认知框架的跨学科可迁移性;所得到的动词 术语 边界词库为后续流行病学、临床医学等领域的跨域对齐提供了可复用的基准。
从单机智能到分布式执行:侠客工坊基于事件驱动的百万级任务编排实践
本文介绍侠客工坊如何用Serverless事件引擎与视觉状态机(VSM)可观测性,破解万级移动端Agent的高并发调度与黑盒运维难题,实现云端智能调度、端侧语义可溯、秒级故障定位,构建企业级AI执行基建。
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。
微软推出bitnet-b1.58-2B-4T:极致的量化,小巧而强大
随着大语言模型的发展,参数量逐渐扩大,大语言模型的训练和运行通常需要大量的计算资源,这也限制了大语言模型在一些场景尤其是端侧的应用,所以,探索剪枝,蒸馏等量化方式,已经成为大语言模型研究的一个重要方向。
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
阶跃星辰发布开源大模型Step 3.5 Flash:专为Agent设计,推理速度达350 TPS,支持256K长上下文,采用稀疏MoE+MTP-3+混合注意力架构,在数学与Agent任务上媲美闭源模型,现已全量开放使用。
Claude Skills的开源实现
Claude推出Skills系统,让AI按需加载专业能力。受此启发,我在开源Minion框架中实现了兼容版本:通过声明式SKILL.md定义技能,支持PDF、Excel等文档处理,实现动态加载、分层搜索与智能注册,降低上下文开销,提升效率。项目支持多LLM、可定制、易扩展,推动构建开放的AI Agent技能生态。
世界模型 LingBot-World,正式开源!
蚂蚁灵波团队开源世界模型LingBot-World,专为交互式仿真设计。其核心LingBot-World-Base具备高保真、强动态、长时序一致性(支持近10分钟稳定生成)和实时交互能力(≈16FPS,延迟<1秒),依托可扩展数据引擎,从游戏环境学习物理与因果规律,打造具身智能、自动驾驶等领域的“数字演练场”。
Qwen3-Coder-Next开源!推动小型混合模型在智能体编程上的边界
Qwen团队开源Qwen3-Coder-Next:基于Qwen3-Next-80B的轻量级编程智能体模型,采用混合注意力+MoE架构,通过可执行任务合成与强化学习训练,在SWE-Bench Verified达70%+,以仅3B激活参数媲美10–20倍大模型,兼顾高性能与低成本部署。(239字)
Python 学习资源精选:从入门到精通的高效清单
本文系统梳理Python从入门到精通的学习路径,分阶段推荐优质资源:入门夯实语法,进阶掌握核心特性,定向深耕Web、数据、AI等领域,最终提升工程化能力。精选视频、书籍、项目与工具,助力高效学习。
84_负提示:控制hallucination
在大语言模型(LLM)应用的浪潮中,我们常常惊叹于这些模型展现出的强大能力——它们能够进行复杂推理、生成高质量内容、回答专业问题,甚至进行创意写作。然而,与此同时,LLM也面临着一个显著的挑战:幻觉(hallucination)问题。这些"胡言乱语"或"无中生有"的内容不仅可能误导用户,还可能在关键应用场景中造成严重后果。
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战
通义千问推出Qwen3-TTS系列开源语音模型,支持中英日韩等10种语言,具备声音克隆、情感适配与高保真端到端合成能力;结合Intel OpenVINO™可在CPU上高效推理,无需GPU,轻松部署于边缘设备。(239字)
大模型微调参数设置 —— 从入门到精通的调参指南
本文系统解析大模型微调核心参数:学习率、批次大小、训练轮次、权重衰减、LoRA秩等的作用机制与设置技巧,结合LLaMA-Factory实战演示,帮助初学者避开“黑箱”误区,在有限算力下实现高效、稳定微调。
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
通义百聆语音双子星,同步开源!
通义百聆全新升级,推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆,支持中英混说、跨语种合成;Fun-ASR识别准确率高达93%,支持31种语言自由混说、歌词说唱识别,并开源轻量级模型,助力高效本地部署与定制开发。
写小说时,Claude 4.0 和 4.5 的差别在哪里?
本文对比Claude Sonnet 4.0与4.5在小说创作中的实际表现,聚焦人物一致性、剧情连续性与长期可控性。基于Anthropic官方能力说明及多轮实测,指出4.5在多阶段续写、逻辑连贯性与风格稳定性上显著提升,更适配中长篇连载场景,助力AI写作从“能写”迈向“能长期写”。(239字)
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。
Spring AI Alibaba + MCP:调用MCP市场公开服务实操
本文详细讲解Spring Ai Alibaba调用MCP市场公开服务的全流程,以高德地图MCP服务为例,包含API-Key申请、客户端配置、代码实操,助力开发者快速掌握Spring Ai Alibaba与MCP服务对接技巧。
跳出 SOTA 内卷,我们发了个“好用至上”的文档解析模型
MinerU2.5-Pro发布:不改1.2B模型架构,专注数据工程革新——通过多样性-难度感知采样、跨模型一致性验证、渲染校验迭代标注与三阶段分层训练,显著提升复杂表格、公式及非常规排版解析能力,在OmniDocBench v1.6达95.69分(SOTA),践行“好用至上”理念。
一张图秒生 LoRA ? Qwen-Image-i2L 诞生记
我们发布了Qwen-Image的“图生LoRA”模型,输入一张图即可端到端生成LoRA权重。通过多阶段迭代,构建了具备细节与风格保持能力的Image-to-LoRA系统,可用于高效LoRA训练初始化,推动个性化生成技术发展。