微调技术
微调是适配预训练模型的关键技术,涵盖指令微调、对齐微调与高效参数微调。LoRA通过低秩分解减少参数量,提升训练效率;其变体如LoRA+、QLoRA、AdaLoRA进一步优化性能与资源消耗。Prefix Tuning与Prompt Tuning则通过少量参数实现高效微调,适用于不同场景需求。(239字)
Multi-Agent 的灵活编排之路
本文探讨了Copilot 3.0架构中规划模块结合DeepSeek R1强化学习(GRPO)的实践,重点分析多智能体架构下大模型如何灵活调度多个智能体解决实际问题。文章从背景、问题分析、Planning角色、难点、效果对比到解决方案进行了深入讲解,并通过实验现象展示了有无思考过程对模型性能的影响。结果显示,GRPO训练后推理长度显著降低,准确率提升7.4个百分点,同时解决了复杂问题与简单问题处理间的平衡问题。
在Dify on DMS上搭建专属版Deep Research Agent
Deep Research Agent 不只是为了让你工作快一点那么简单。它更像一场知识工作的革命,彻底把我们从没完没了的“信息搬运”和“大海捞针”中解放出来。想想看,当那些繁琐的、重复性的搜集和整理工作都交给AI后,我们可以把宝贵的时间和脑力,真正用在刀刃上:去提出更一针见血的问题,去构思更有远见的战略,或者干脆去创造一个前所未有的新东西。本文将教你如何在Dify on DMS上,构建企业专属版Deep Research Agent。
滴滴派单算法_从算法模型思路到评估方案 - 详解
导读:说到滴滴的派单算法,大家可能感觉到既神秘又好奇,从出租车扬召到司机在滴滴平台抢单最后到平台派单,大家今天的出行体验已经发生了翻天覆地的变化,面对着每天数千万的呼叫,滴滴的派单算法一直在持续努力让更多人打到车,本篇文章会着重介绍我们是如何分析和建模这个问题,并且这其中面临了怎样的算法挑战,以及介绍一些我们常用的派单算法,这些算法能够让我们不断的提升用户的打车确定性。