米基

2024-05-15

大模型推理优化实践：KV cache复用与投机采样

在本文中，我们将详细介绍两种在业务中实践的优化策略：多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现，并分享一些实现时的关键技巧。

米基

769

阿里云云原生

2024-07-30

179

5 大场景上手通义灵码企业知识库 RAG

通义灵码在企业版里还引入了一个超酷的新技能：RAG（Retrieval-Augmented Generation）检索增强生成的能力，本文就跟大家分享下企业知识库能帮开发者做些什么。

阿里云云原生

179

阿里云百炼

2024-07-09

478

阿里云百炼应用实践系列-基于LlamaIndex的文档问答助手

本文以百炼官方文档问答助手为例，介绍如何基于百炼平台打造基于LlamaIndex的RAG文档问答产品。我们基于百炼平台的底座能力，以官方帮助文档为指定知识库，搭建了问答服务，支持钉钉、Web访问。介绍了相关技术方案和主要代码，供开发者参考。

阿里云百炼

478

喻奎

2023-06-25

10068

MaxCompute湖仓一体近实时增量处理技术架构揭秘

本文将介绍阿里云云原生大数据计算服务MaxCompute湖仓一体近实时增量处理技术架构的核心设计和应用场景。

喻奎

10,068

阿里云实时数仓Hologres

2024-06-18

974

森马基于MaxCompute+Hologres+DataWorks构建数据中台

本次案例主要分享森马集团面对多年自建的多套数仓产品体系，通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台，保障数据生产稳定性与数据质量，减少ETL链路及计算时间，每年数仓整体费用从300多万降到180万。

阿里云实时数仓Hologres

974

阿里云百炼

2024-07-03

373

阿里云百炼模型入门篇-大语言模型

本文主要介绍如何快速的通过阿里云百炼，带你如何快速入门通义千问系列大语言模型。

阿里云百炼

373

子白

2024-05-15

101052

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

101,052

探索云世界

2024-05-15

38473

不需要懂技术，3分钟幻兽帕鲁服务器搭建教程

幻兽帕鲁最近非常火。有些小伙伴可能不喜欢跟陌生人一起玩，那么你可以搭建一个专有服务器和朋友一起联机游戏。自己搭建服务器不仅更私密，还能自定义游戏里的一些选项，比如调整工作速度倍率、经验获取倍率等。这篇教程将引导你在几分钟内快速完成幻兽帕鲁服务器的搭建。

探索云世界

38,473

ModelScope

2024-05-15

1161

在魔搭使用ComfyUI，玩转AIGC

ComfyUI是一个功能强大、模块化程度高的AIGC图形和视频生成的用户界面和后台。

ModelScope

1,161

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

5 大场景上手通义灵码企业知识库 RAG

阿里云百炼应用实践系列-基于LlamaIndex的文档问答助手

MaxCompute湖仓一体近实时增量处理技术架构揭秘

森马基于MaxCompute+Hologres+DataWorks构建数据中台

阿里云百炼模型入门篇-大语言模型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

不需要懂技术，3分钟幻兽帕鲁服务器搭建教程

在魔搭使用ComfyUI，玩转AIGC