AI大模型和大数据挖掘技术专家,专注阿里云AI大模型技术,涵盖模型微调、模型调优、大模型智能体开发。同时精通大数据处理和数据预处理,构建好质量模型数据集和知识库。
暂时未有相关通用技术能力~
阿里云技能认证
详细说明
本文是一篇理论与实践结合的综述文章,综合性全面介绍大模型微调技术。本文先介绍大模型训练的两类场景:预训练和后训练,了解业界常见的模型训练方法。在后训练介绍内容中,引出模型微调(模型微调是属于后训练的一种)。然后,通过介绍业界常见的模型微调方法,以及通过模型微调实操案例的参数优化、微调过程介绍、微调日志解读,让读者对模型微调有更加直观的了解。最后,我们详细探讨数据并行训练DDP与模型并行训练MP两类模型并行训练技术,讨论在实际项目中如何选择两类并行训练技术。
阿里云DTS作为一款常用的数据库表迁移工具,提供了功能非常类似的两个功能:数据迁移、数据同步。阿里云DTS产品官网对这两个功能模块进行了简单的区分: 场景1:存量数据批量迁移,建议使用数据迁移功能。 场景2:增量数据实时同步,建议使用数据同步功能。 实际上,无论是数据迁移还是数据同步,都可以做 “结构初始化”+“全量数据迁移”+“增量迁移”,因此两者功能差异并不明显。笔者在多个项目实践DTS数据迁移,在简单需求场景下,将DTS的数据迁移、数据同步进行对比和总结。
本文基于阿里云OSS手册:https://help.aliyun.com/zh/oss/use-cases/use-an-ecs-instance-that-runs-centos-to-configure-a-reverse-proxy-for-access-to-oss,继续深入讨论如何利用nginx反向代理,实现固定的IP/域名访问OSS bucket。官方文档能够解决大部分的反向代理固定IP访问oss bucket的场景,但是对于必须使用域名作为endpoint的系统,会出现signatrue鉴权问题。本文继续在官方文档的基础上,将反向代理需要域名作为endpoint的场景补齐方案。
在云平台服务中有多种场景需要使用到反向代理,常见的应用场景包括:内网专有云平台访问公网资源、公有云平台访问客户内网IDC机房资源、云产品通过代理访问多个不同的资源等等。笔者总结几种场景配置nginx的7层反向代理、4层反向代理,巧妙实现应用需求。
根据Centos Linux(以下简称Centos)官方声明: 1、Centos7在2020-08-06停止更新,在2024-06-30停止维护。 2、Centos8在2024-05-31停止更新,在2024-06-30停止维护。 鉴于Centos操作系统将会在2024年停止维护,因此为了企业软件服务长期稳定性运行,需要寻找Centos Linux操作系统替代版本。
对于数据中台指标而言,维度联合组合的情况越多,最终实现的指标越复杂。本文考虑为了满足多个维度任意组合下的指标,数据中台cdm公共层的事实表与维度表应该如何设计。
作为新零售行业从业者,最常见的问题就是以何种粒度在数据仓库存储订单交易数据表。常见的粒度有三类:(1)以商品SKU为粒度存储订单数;(2)以商品SPU为粒度存储订单数据;(3)以交易订单为粒度存储订单数据。其中,第3种方式以交易订单为粒度存储订单数据,更加适合交易明细数据表,对于数据仓库存储方式不是很合适。因此,本文重点阐述如何将SKU粒度数据表与SPU粒度数据表进行融合。
阿里云公有云的maxcompute采用共享资源池,每个开发者使用的数据表都属于该共享资源池。由于公有云的maxcompute元数据不对开发者开放,因此开发者无法直接获取到数据表的存储空间信息。本文总结3种常见的方法,指导开发者如何查看maxcompute数据表的存储空间。