并行计算的搜索结果_热门_第7页-阿里云开发者社区

喜欢猪猪

|

10月前

|

博文

|

# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解

通义千问Qwen3系列是通义实验室2025年推出的最新大模型，包含多种参数版本，其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小，响应更快，适合低延迟交互；Qwen3-14B参数更多，推理更强，适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重，满足多样应用场景需求。

# 大模型服务平台百炼 # 存储 # 资源调度 # 并行计算 # 监控 # 异构计算

游客4d7nidhe5yrva

|

4月前

|

博文

|

来自： ModelScope模型即服务

高效 GPU 加速：DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南

本文详解如何在RTX 30/40系显卡上，通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构，结合Docker、Prometheus监控及负载均衡，实现低延迟、高吞吐的生产级推理，助力大模型落地应用。

# GPU云服务器 # 并行计算 # 监控 # 安全 # 异构计算 # 容器

Deephub

|

2月前

|

博文

KV Cache管理架构演进：从连续分配到统一混合内存架构

本文系统梳理KV Cache管理演进的5个时代（从无到统一内存架构），剖析vLLM、SGLang、TensorRT-LLM等框架在各阶段的技术取舍与实践效果，涵盖连续缓存、PagedAttention、异构/分布式/统一混合架构等关键突破，助你为不同场景（文本、多模态、长上下文、混合模型）选择最优方案。

# 存储 # 机器学习/深度学习 # 缓存 # 并行计算 # 异构计算

云服务器吧

|

博文

NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比

NVIDIA Tesla系列GPU适用于高性能计算（HPC）、深度学习等超大规模数据计算，Tesla系列GPU能够处理解析PB级的数据，速度比使用传统CPU快几个数量级，NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品，云服务器吧分享NVIDIA.

# GPU云服务器 # 机器学习/深度学习 # 缓存 # 并行计算 # openCL # 虚拟化 # 数据中心 # 异构计算

政胤

|

博文

Ai实现FPS游戏自动瞄准 yolov5fps自瞄

# 云解析DNS # 人工智能 # 编解码 # 并行计算 # 异构计算 # Python

AIweker

|

博文

一篇就够：高性能推理引擎理论与实践 (TensorRT)

本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。

# GPU云服务器 # 云解析DNS # 机器学习/深度学习 # 存储 # 并行计算 # PyTorch # TensorFlow # 调度 # 算法框架/工具 # 开发工具 # 异构计算 # Python

Hcoco_me

|

博文

简单学习一下AES算法：GCM、ECB、CFB、OFB等

# 密钥管理服务 # 并行计算 # 算法 # 搜索推荐 # 安全 # 数据安全/隐私保护

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

# 图像识别 # 人工智能 # 并行计算 # 语音技术 # 异构计算 # Windows

刘悦的技术博客

|

博文

无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

目前流行的开源大语言模型大抵都会有内容审查机制，这并非是新鲜事，因为之前chat-gpt就曾经被“玩”坏过，如果没有内容审查，恶意用户可能通过精心设计的输入（prompt）来操纵LLM执行不当行为。内容审查可以帮助识别和过滤这些潜在的攻击，确保LLM按照既定的安全策略和道德标准运行。但我们今天讨论的是无内容审查机制的大模型，在中文领域公开的模型中，能力相对比较强的有阿里的 Qwen-14B 和清华的 ChatGLM3-6B。而今天的主角，CausalLM-14B则是在Qwen-14B基础上使用了 Qwen-14B 的部分权重，并且加入一些其他的中文数据集，最终炼制了一个无内容审核的

# GPU云服务器 # 并行计算 # 开发工具 # C++ # 开发者 # Python

智能计算老群群

|

博文

GPU通信互联技术：GPUDirect、NVLink与RDMA

在高性能计算和深度学习领域，GPU已成为关键工具。然而，随着模型复杂度和数据量的增加，单个GPU难以满足需求，多GPU甚至多服务器协同工作成为常态。本文探讨了三种主要的GPU通信互联技术：GPUDirect、NVLink和RDMA。GPUDirect通过绕过CPU实现GPU与设备直接通信；NVLink提供高速点对点连接和支持内存共享；RDMA则在网络层面实现直接内存访问，降低延迟。这些技术各有优势，适用于不同场景，为AI和高性能计算提供了强大支持。

# GPU云服务器 # 存储 # 机器学习/深度学习 # 并行计算 # 异构计算 # RDMA

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

并行计算