自动化专业在读,聚焦人工智能领域跨界探索。这里会记录自动化控制与 AI 技术的碰撞,也会分享实操项目中的坑与经验。欢迎交流:chenai_tgf@163.com
Switch Transformers通过简化MoE路由机制,实现万亿参数模型的高效训练。其核心创新在于Switch Routing(单专家激活)、选择性精度与三重并行架构,在降低计算成本的同时提升模型规模与稳定性,为大模型稀疏化发展奠定基础。
本文解读AI十大核心论文之五——《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。该论文提出RAG框架,通过“检索+生成”结合,解决大模型知识更新难、易幻觉、缺溯源等问题,实现小模型高效利用外部知识库,成为当前大模型落地的关键技术。
本文解读AI十大核心论文之二——《Training Language Models to Follow Instructions with Human Feedback》。该论文提出RLHF框架,通过“监督微调-奖励建模-强化学习”三步法,首次实现大模型与人类意图的有效对齐,推动GPT-3进化为更安全、可信的InstructGPT,奠定ChatGPT等后续模型的技术基石,开启大模型“从博学到好用”的新时代。
摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研
摘要 《Attention Is All You Need》论文开创性地提出Transformer架构,彻底改变了自然语言处理领域的技术路径。该论文解决了传统RNN/CNN模型的三大痛点:通过自注意力机制实现全局语义捕捉,摆脱了序列处理的低效性;多头注意力设计支持并行计算,大幅提升训练效率;缩放点积注意力有效解决长距离依赖问题。Transformer的核心创新包括:1)完全基于注意力机制取代循环结构;2)编码器-解码器堆叠架构;3)残差连接和层归一化优化训练稳定性。这一架构为GPT、BERT等大模型奠定了基
本文介绍了通过远程桌面连接实现跨机传输大文件的方法。首先说明如何启动远程桌面连接(Win+R输入mstsc或搜索打开),强调需输入云服务器公网IP(如47.98.XX.XX格式)。详细图文展示了连接过程,包括输入Administrator账户密码的步骤。文件传输支持两种方式:部分系统可直接拖拽文件到本机,其他系统可通过复制粘贴完成。该方法解决了传统邮箱附件/网盘传输大文件的低效问题,适用于数据库备份、安装包等GB级文件传输场景。
发表了文章
2025-11-24
发表了文章
2025-11-18
发表了文章
2025-11-17
发表了文章
2025-11-17
发表了文章
2025-11-14
发表了文章
2025-11-13