官方博客-第20页-阿里云开发者社区

新念

2025-02-14

1390

DeepSeek-V3 高效训练关键技术分析

本文从模型架构、并行策略、通信优化和显存优化四个方面展开，深入分析了DeepSeek-V3高效训练的关键技术，探讨其如何以仅5%的算力实现对标GPT-4o的性能。

新念

1,390

望雲十雨言澈

2025-04-10

520

AI Infra之模型显存管理分析

本文围绕某线上客户部署DeepSeek-R1满血版模型时进行多次压测后，发现显存占用一直上升，从未下降的现象，记录了排查过程。

望雲十雨言澈等

520

德歌

2023-09-14

25831

沉浸式学习PostgreSQL|PolarDB 16: 植入通义千问大模型+文本向量化模型, 让数据库具备AI能力

本文将带领大家来体验一下如何将“千问大模型+文本向量化模型”植入到PG|PolarDB中, 让数据库具备AI能力.

德歌

25,831

王明橙鲤黄俊

2024-05-15

64101

通义千问开源模型在PAI灵骏的最佳实践

本文将展示如何基于阿里云PAI灵骏智算服务，在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。

王明橙鲤黄俊等

64,101

ModelScope

2024-05-15

1213

今天，来自 Qwen1.5 开源家族的新成员，代码专家模型 CodeQwen1.5开源！CodeQwen1.5 基于 Qwen 语言模型初始化，拥有 7B 参数的模型，其拥有 GQA 架构，经过了 ~3T tokens 代码相关的数据进行预训练，共计支持 92 种编程语言、且最长支持 64K 的上下文输入。效果方面，CodeQwen1.5 展现出了优秀的代码生成、长序列建模、代码修改、SQL 能力等,该模型可以大大提高开发人员的工作效率，并在不同的技术环境中简化软件开发工作流程。

ModelScope

1,213

离澈

2024-05-15

358

万字长文：一文详解单元测试干了什么

好的单元测试不仅可以验证代码结构设计的是否合理，而且可以提前发现代码中的漏洞，将线上风险扼杀在摇篮中。本文从常用的单元测试框架出发，对Mockito框架深入浅出的讲解，希望能帮到每一位同学。

离澈

358

ModelScope

2024-05-15

104663

手把手教你捏一个自己的Agent

Modelscope AgentFabric是一个基于ModelScope-Agent的交互式智能体应用，用于方便地创建针对各种现实应用量身定制智能体，目前已经在生产级别落地。

ModelScope

104,663

探索云世界

2024-05-15

1003

使用CDN加速服务对域名加速

本文介绍如何使用CDN加速服务对域名加速。

探索云世界

1,003

陈浩章颖强

2024-05-29

55694

ICDE’24｜中国企业首获最佳论文，详解PolarDB Serverless如何在0.5秒内实现跨机迁移

PolarDB Serverless如何在0.5秒内实现跨机迁移？

陈浩章颖强

55,694

官方博客-第20页-阿里云开发者社区

类目筛选

内容类型

DeepSeek-V3 高效训练关键技术分析

AI Infra之模型显存管理分析

沉浸式学习PostgreSQL|PolarDB 16: 植入通义千问大模型+文本向量化模型, 让数据库具备AI能力

通义千问开源模型在PAI灵骏的最佳实践

快来与 CodeQwen1.5 结对编程

万字长文：一文详解单元测试干了什么

手把手教你捏一个自己的Agent

使用CDN加速服务对域名加速

ICDE’24｜中国企业首获最佳论文，详解PolarDB Serverless如何在0.5秒内实现跨机迁移

官方博客-第20页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

DeepSeek-V3 高效训练关键技术分析

AI Infra之模型显存管理分析

沉浸式学习PostgreSQL|PolarDB 16: 植入通义千问大模型+文本向量化模型, 让数据库具备AI能力

通义千问开源模型在PAI灵骏的最佳实践

快来与 CodeQwen1.5 结对编程

万字长文：一文详解单元测试干了什么

手把手教你捏一个自己的Agent

使用CDN加速服务对域名加速

ICDE’24｜中国企业首获最佳论文，详解PolarDB Serverless如何在0.5秒内实现跨机迁移