云上AI推理平台全掌握 (3):服务接入与全球调度

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,为 LLM 服务量身打造了专业且灵活的服务接入方案,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。

在 AI 推理服务全球化部署的今天,企业正面临跨地域流量调度、异构网络接入、高安全要求与低延迟保障的多重挑战。据行业调研,超过60%的 AI 推理性能问题源于非最优的网络路径选择,而混合云场景下的服务接入复杂度更是导致运维成本飙升300%。阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。


阿里云人工智能平台 PAI 的推理服务 PAI-EAS 为 LLM 服务量身打造了专业且灵活的服务接入方案。该方案支持多种服务调用方式,包括公网调用VPC 调用以及高速直连调用,以满足不同场景下的网络需求。此外,PAI-EAS 还支持与 NLB 实例关联,实现自定义负载均衡策略,以及与 Nacos 关联,实现自定义服务发现功能。通过 PAI-EAS 专属网关能力,用户可以一键配置服务的公网与私网访问白名单。结合云企业网(CEN)打通 VPC 后,还能实现跨地域的服务调用,从而为客户构建全球化容灾高可用方案,确保业务的连续性和稳定性。


EAS 服务调用方式


图1.png


公网访问


客户可以直接通过公共网络访问部署在资源组中的服务。公网访问时,请求会经由 EAS 共享公共网关转发至 EAS 在线服务。此外,为实现安全隔离与访问控制方面的需求,客户可配置专属网关,通过专属网关转发请求到 EAS 在线服务,以确保客户端与服务端之间拥有稳定的网络连接。


VPC 访问


位于同一地域的两个 VPC 网络支持建立 VPC 连接,客户可以通过共享网关或专属网关访问同一地域中部署在资源组中的服务。位于不同地域的两个 VPC 网络可以通过云企业网(CEN)进行连接。网络打通后,客户需要配置专属网关,通过专属网关将请求转发至 EAS 在线服务。通过专属网关转发请求,可以提升网络带宽,帮助客户降低高并发和高吞吐业务场景带来的网络风险。


VPC 高速直连访问


将 EAS 服务或专属资源组添加到 VPC 网络环境中,开通 VPC 高速直连。开通 VPC 高速直连后,无需通过网关访问服务,避免了四层 SLB 和七层网络转发,客户可以在 VPC 中直接访问 EAS 实例。同时,EAS 预置的 RPC 实现了 HTTP 相关协议栈,对于高 QPS(Queries Per Second)的大流量服务(例如图像服务),可以大幅度提高访问性能、降低访问延时。


NLB 地址调用


EAS 服务支持关联 NLB 负载均衡实例,客户可以通过 NLB 来自定义服务的负载均衡策略来调用 EAS 服务。


Nacos 地址调用


如果客户使用 Nacos 统一管理服务,将 EAS 服务挂载到 Nacos 实例后,可以使用 Nacos 的服务发现能力来进行服务请求。


专属网关


为了满足客户在安全隔离与访问控制方面的需求,EAS 提供了专属网关功能。通过专属网关,客户可以灵活地进行网络配置,支持为专有网络和公网配置访问白名单、自定义域名访问。此外,专属网关还可以帮助客户降低高并发和高吞吐业务场景带来的网络风险。


图2.png

全球调度


在 PAI-EAS 推理服务平台中,依托智能化的多地域专属网关架构和全球各地域分布式资源部署能力,企业可轻松实现 AI 服务的全球化部署与智能调度。这一强大的功能不仅确保了服务在全球范围内的高效、稳定运行,更为客户业务的全球化布局提供了坚实的容灾高可用保障。无论面对何种突发状况,您的业务都能在不同地域间无缝切换,持续为用户提供不间断的优质服务,从容应对全球化的业务挑战。


图3.png

使用方式


1. 登录 PAI 控制台(https://x.sm.cn/QWbDgV,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入 EAS


2. 在推理服务页签,单击部署服务,选择自定义模型部署>自定义部署


3. 在服务接入的区域,进行网关专有网络(VPC)关联负载均衡 NLB关联负载发现 Nacos 等相关配置。


图4.png

系列简介:云上 AI 推理平台全掌握


本系列 《云上 AI 推理平台全掌握》 将深度解析阿里云 AI 推理平台的技术架构、最佳实践与行业应用,涵盖以下核心内容:


1. 技术全景:从分布式推理、动态资源调度到 Serverless,揭秘支撑千亿参数模型的底层能力。


2. 实战指南:通过压测调优、成本优化、全球调度等场景化案例,手把手教你构建企业级推理服务。


3. 行业赋能:分享金融、互联网、制造等领域的落地经验,展示如何通过云上推理平台加速 AI 业务创新。


无论您是 AI 开发者、架构师,还是企业决策者,本系列都将为您提供从理论到实践的全方位指导,助力您在 AI 时代抢占先机。让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!


立即开启云上 AI 推理之旅,就在阿里云人工智能平台 PAI。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
5天前
|
人工智能
DeepFig - AI驱动设计到代码的一站式平台
DeepFig致力于全球领先的通用AI底层模型研发,挑战前沿技术难题。团队半天内整合多个百亿参数大模型,包括deepfig-llm、deepfig-coder、deepfig-flash等,在公开评测与真实场景中均表现卓越,泛化能力超越同级模型。
|
6天前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
97 0
|
6天前
|
人工智能 安全 搜索推荐
面向阿里云百炼用户的AI安全护栏服务
本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。
44 0
|
7天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
103 3
|
7天前
|
人工智能 Serverless API
函数计算的云上计费演进:从请求驱动到价值驱动,助力企业走向 AI 时代
函数计算计费方式历经三阶段演进:从按请求计费,到按活跃时长毫秒级计费,再到按实际资源消耗分层计费。背后是资源调度、安全隔离与开发体验的持续优化。尤其在AI时代,低负载减免、会话亲和等技术让计费更贴近真实价值,推动Serverless向“按需使用、按量付费”终极目标迈进。
|
7天前
|
人工智能 Serverless API
函数计算的云上计费演进:从请求驱动到价值驱动,助力企业走向 AI 时代
在 AI 时代,函数计算一直坚持走向“让开发者只关心业务逻辑,云厂商自动完成一切资源管理与调度”的愿景,最终让计算像水、电一样随时可得、按实际使用价值付费。
|
7天前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
54 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性
|
7天前
|
人工智能 Kubernetes 安全
重塑云上 AI 应用“运行时”,函数计算进化之路
回顾历史,电网的修建,深刻地改变了世界的经济地理和创新格局。今天,一个 AI 原生的云端运行时的进化,其意义也远不止于技术本身。这是一次设计哲学的升华:从“让应用适应平台”到“让平台主动理解和适应智能应用”的转变。当一个强大、易用、经济且安全的 AI 运行时成为像水电一样的基础设施时,它将极大地降低创新的门槛。一个独立的开发者、一个小型创业团队,将有能力去创造和部署世界级的 AI 应用。这才是技术平权的真谛,是激发全社会创新潜能的关键。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
42 1
|
4天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
23 4