线程池:故障梳理总结
本文从故障与技术双重视角,总结线程池满导致服务不可用的典型案例与根因,涵盖数据库慢查询、连接池配置不当、超时设置缺失等问题,分享fast-fail理念、流控背压、谨慎重试等最佳实践,助力开发者提升系统稳定性。
BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限
BOSS直聘Nanbeige实验室开源Nanbeige4-3B模型,仅30亿参数却在数学、推理、代码等多领域超越320亿参数大模型。通过23万亿高质量token训练、千万级指令微调及双重蒸馏强化学习,实现小模型性能跃升,为端侧部署与低成本推理提供新范式。
SpringCloud概述
Spring Cloud是微服务一站式解决方案,具备注约大于配置、组件丰富、开箱即用等特点。其版本以地铁站命名,避免与子项目冲突。Spring Cloud Alibaba融合Nacos、Sentinel、Seata等阿里开源组件,提供更完整、经生产验证的微服务生态,成为当前主流技术选型。
133_云端扩展:Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践
在大语言模型(LLM)部署的时代,如何高效地管理计算资源、应对动态负载并优化成本,成为了每个AI工程师必须面对的挑战。随着LLM应用的普及,用户请求模式变得日益复杂且难以预测,传统的静态资源配置方式已无法满足需求。Kubernetes作为云原生时代的容器编排平台,其强大的自动扩展能力为LLM部署提供了理想的解决方案。
129_量化技术:INT8与动态量化 - 推导压缩的精度损失公式
在2025年的大语言模型(LLM)时代,随着模型规模的指数级增长,部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿,这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术,正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术,特别是INT8和动态量化方法,推导其精度损失公式,并提供2025年最新的优化策略和实现代码。
76_混合云环境:AWS与GCP互联
在当今数字化转型的浪潮中,混合云架构已成为企业IT基础设施的重要组成部分。截至2025年第一季度,全球云基础设施市场由三大云服务提供商主导:亚马逊云服务(AWS)占29%市场份额,微软Azure占22%,谷歌云平台(GCP)占12%。这三大提供商合计占据全球云市场约63%的份额。在这种情况下,企业越来越多地采用混合云策略,尤其是同时使用AWS和GCP这两个领先平台。
80_离线环境搭建:无互联网LLM推理
在当今大语言模型(LLM)蓬勃发展的时代,许多组织和个人面临着一个共同的挑战:如何在无互联网连接的环境中高效部署和使用LLM?这一需求源于多方面的考量,包括数据安全、隐私保护、网络限制、极端环境作业等。2025年,随着企业对数据主权意识的增强和边缘计算的普及,离线LLM部署已成为AI应用落地的关键场景之一。
Kimi K2 开源发布:擅长代码与 Agentic 任务!
今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
DeepSeek 双百万 token 窗口对话数据的量化对比分析
本文基于第一个百万 token 窗口(以下简称 窗口 1)与第二个百万 token 窗口(以下简称 窗口 2)的完整对话数据,采用量化对比的方法,系统揭示两套对话在轮次、文本长度、语种构成以及估算 token 消耗方面的显著差异。研究发现,尽管窗口 2 的轮次和总字数均低于窗口 1,但其每轮对话的文本密度与估算 token 消耗显著更高。结合窗口 2 在生成 5 篇深度分析文章过程中的实际经验,本文提出“长文本生成的隐性 token 消耗”假说,并引用近期相关研究提供理论支撑。该假说为理解大模型在真实工程环境中的行为提供了新视角,也为用户在设计跨窗口连续工程时的指标控制与迁移提供了可操作的参考
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
本节我们将理论付诸实践,利用 LlamaIndex 的 ReAct 框架和 Qwen3 模型,手搓一个全自动的博客监控 Agent。通过为大模型接入 RSS 读取、邮件与微信发送等外部工具,让它从‘聊天机器人’进化为‘能干活的数字员工’。
开源开放被集成:魔搭OpenAPI上新,广泛链接社区生态
ModelScope正式推出OpenAPI与OAuth 2.0开放服务,覆盖模型、数据集、MCP及用户信息四大核心板块,支持自动化发现、集成与管理AI资源。接口遵循OpenAPI规范,提供标准REST能力与安全授权机制,助力开发者低门槛构建AI应用、CI/CD流水线及Agentic智能体系统,践行“AI基础设施即代码”理念。(239字)
87%的案例学习都停留在"看热闹"——用这套AI指令把案例变成你的决策资产
87%的案例学习只停留在看热闹。分享一套案例分析AI指令,通过结构化分析框架,帮你从案例中提炼可迁移的决策模型,提升学习效率。
你的错题本里藏着金矿,但你却只把它当成了回收站——用AI给大脑做一次深度Debug
把学习比作软件开发,错题就是Bug。大多数人只改答案(打补丁),却忽略了底层的逻辑漏洞。本文分享一套"错题分析AI指令",利用Root Cause Analysis(根因分析)思维,帮助你用AI深度Debug大脑,将每一个错误转化为认知的核心资产。
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,升级支持“重思考模式”,在智能体搜索、工具调用等任务中达开源SOTA。具备强泛化与抗噪能力,支持在线免费体验,助力开发者高效落地复杂应用场景。
C 语言项目实战入门:从 0 到 1 搭建简易学生信息管理系统
本文以“简易学生信息管理系统”为例,系统讲解C语言项目开发全流程,涵盖需求分析、数据结构设计、模块化编码、文件操作与调试优化,帮助初学者掌握结构体、指针、动态内存管理等核心技能,实现学生信息的增删改查与持久化存储,夯实C语言实战基础。
C 语言高效学习:从入门到嵌入式的科学路径
C语言是嵌入式与底层开发的基石。科学学习路径分四阶:入门打基础,深化指针内存,项目实战练工程,进阶嵌入式。掌握文件持久化、并发编程,融合硬件应用,实现从新手到工程师的跃迁,彰显其高性能、强控制与广生态的持久生命力。
Python 为何能稳居全场景开发主流语言宝座
Python凭借简洁语法、丰富生态、跨平台兼容及社区企业双重推动,成为覆盖Web开发、数据分析、人工智能等全场景的“万能钥匙”,兼具低门槛与高效率,稳居编程语言主流地位。
SpringSecurity工程搭建与验证
本文介绍如何基于阿里云脚手架快速搭建SpringBoot工程(选用2.7.6版本),并整合Spring Security。内容涵盖项目创建、代码导入、Web依赖引入、接口编写与验证,以及Security依赖添加后的登录认证测试,最终实现安全访问控制。完整代码见GitHub仓库Day01分支。
Python 项目实战入门:从 0 到 1 搭建简易学生信息管理系统
本文以简易学生信息管理系统为例,带领Python初学者从零构建完整Web项目。涵盖需求分析、Flask+SQLAlchemy技术栈搭建、数据库设计、前后端交互实现及本地部署全流程,助你掌握增删改查、数据持久化与Excel导出等核心功能,快速入门Python项目开发。
[MES]数据库改造H2到MySQL(☆☆)
本文介绍如何运行克隆项目代码并迁移数据库,涵盖Git、Maven、SpringBoot等技术栈。要求从Gitee克隆代码,配置JDK与Maven环境,运行项目并思考问题解决方式,最终将H2内存库迁移到MySQL,适应实际开发需求。
领域模型图(数据架构/ER图)
本文介绍如何通过四色原型法进行领域建模,构建数据架构中的ER图。涵盖四种原型:时标性(MI,红色)、参与方-地点-物品(PPT,绿色)、角色(Role,黄色)和描述(DESC,蓝色),并以风控系统为例,逐步解析从业务流程到ER图的转化过程,实现业务到数据模型的精准映射。
构建AI智能体:七十七、AI古典文学:基于LoRA微调Qwen1.5-0.5B打造唐诗生成器
本文介绍了基于LoRA微调技术实现AI创作唐诗的方法。通过使用Qwen1.5-0.5B-Chat作为基础模型,仅调整0.34%的参数(157万),在CPU上39分钟即可完成训练。文章详细展示了从模型选择、28首原创唐诗数据集构建、LoRA参数配置到训练评估的全过程。实验结果表明,模型能生成符合主题的原创唐诗,但在格律平仄、意境深度等方面仍需优化。这一实践验证了LoRA技术在古典文学创作领域的可行性,为轻量化AI创作提供了有价值的参考。
Ling-1T,智渊、思简
今天,我们正式发布Ling 2.0系列的第一款 旗舰非思考模型 - 拥有万亿参数的Ling-1T。推理,是智能的核心表达,更是通用智能体的认知基石。因此,我们持续扩展Ling 2.0 系列模型的自然语言推理能力。Ling-1T沿用 Li…
137_安全强化:输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践
随着大语言模型(LLM)在各行业的广泛应用,安全问题日益凸显。从提示注入攻击到恶意输出生成,从知识产权保护到内容溯源,LLM安全已成为部署和应用过程中不可忽视的关键环节。在2025年的LLM技术生态中,输入过滤和输出水印已成为两大核心安全技术,它们共同构建了LLM服务的安全防护体系。
50_选择模型:开源vs闭源
在大型语言模型(LLM)技术快速发展的今天,企业和开发者面临着一个关键决策:是选择开源LLM模型还是闭源LLM服务?这个选择直接影响到项目的成本结构、开发灵活性、数据安全性以及长期战略规划。随着2025年LLM技术的进一步成熟,开源与闭源模型之间的竞争格局也发生了显著变化。
74_调试技巧:OOM与性能瓶颈
在大型语言模型(LLM)的开发与部署过程中,内存溢出(Out of Memory,简称OOM)错误和性能瓶颈问题是开发者经常面临的两大挑战。随着模型规模的不断扩大(从最初的BERT、GPT-2到现在的GPT-4、Claude 3等千亿甚至万亿参数的模型),这些问题变得更加突出。据2025年最新的开发者调查报告显示,超过78%的LLM开发者在模型训练或推理过程中遇到过OOM错误,而性能瓶颈则影响了约65%的生产环境部署。
70_大模型服务部署技术对比:从框架到推理引擎
在2025年的大模型生态中,高效的服务部署技术已成为连接模型能力与实际应用的关键桥梁。随着大模型参数规模的不断扩大和应用场景的日益复杂,如何在有限的硬件资源下实现高性能、低延迟的推理服务,成为了所有大模型应用开发者面临的核心挑战。
拿下30个第1名的腾讯混元翻译模型,开源!
腾讯混元又带来一个在国际机器翻译比赛拿下30个第1名的翻译模型Hunyuan-MT-7B,它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
OpenAI 重返开源!gpt-oss系列社区推理、微调实战教程到!
时隔N年,OpenAI开放模型权重啦!欢迎使用gpt-oss 系列,专为强大的推理、代理任务和多用途开发场景设计。
通义WebSailor开源,首个挑战BrowseComp基准的开源网络智能体!
WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。
ms-swift 微调 internlm3-8b-instruct(论文分类任务)
本文介绍了使用InternLM系列模型进行论文分类任务的微调全过程,包括环境配置、数据准备、预训练与SFT(监督微调)、权重合并、模型评测及上传至魔搭社区等步骤。使用ms-swift框架和Lora训练方法,在具备40GB显存的A100 GPU环境下完成训练,并通过Swift工具进行效果评估。
一文读懂向量数据库:从核心概念到实际应用
本文精析向量数据库核心能力、优势(毫秒级相似检索、原生支持非结构化数据)与痛点(精度/效率难兼得、成本高、运维复杂),对比Milvus/Chroma/FAISS等开源方案及Pinecone/Zilliz商业产品,提供AI开发者高效选型指南。(239字)