EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章

简介: EMR Serverless Spark 深度集成 AI Function 能力,并无缝对接 阿里云百炼与 阿里云人工智能平台 PAI 模型在线服务 PAI-EAS,定义了“SQL 即 AI”的新解决思路,数据分析师只需一行 SQL,即可直接调用世界顶尖的大模型。

将大模型应用于海量存量数据曾是一道无解题:是为了调用 API 而忍受 PB 级数据的漫长搬运?还是为了封装 HTTP 请求而让分析师去啃复杂的 Spark UDF 代码?亦或是冒着合规风险将敏感数据移出安全域?


今天,阿里云 EMR Serverless Spark 解决了这些难题。 通过深度集成 AI Function 能力,并无缝对接 阿里云百炼(Model Studio)阿里云人工智能平台 PAI 模型在线服务 PAI-EAS,定义了“SQL 即 AI”的新解决思路——数据分析师只需一行 SQL,即可直接调用世界顶尖的大模型。无需编写一行 Python 代码,无需移动任何数据,让大模型直接“走近”数据进行实时处理。

image.png


全球趋势:当 SQL 遇上大模型

放眼全球,"Data + AI" 的融合已成为大势所趋。业界领先的云厂商如 Databricks 和 Snowflake,已纷纷推出了类似 "AI Functions" 或 "Cortex AI" 的功能,试图将大模型能力下沉到数据引擎层。他们的核心逻辑是一致的:消除数据与 AI 之间的工程鸿沟,让非机器学习专家也能通过熟悉的 SQL 接口使用大模型。


阿里云 EMR Serverless Spark 顺应全球技术变革浪潮,提供了既符合主流架构规范、又懂复杂业务语境的通用解决方案。您无需为了使用 AI 而改变现有的数据底座,只需让 AI 像 SUM()COUNT() 一样,作为原生函数直接嵌入 SQL。这种“无感集成”的方式,正在重塑数据处理的未来工作方式。


百炼与 PAI:两种接入模式的工程实践

EMR Serverless Spark 的 AI Function 绝非空中楼阁,它依托于阿里云强大的 AI 基础设施,提供了两种核心对接模式,覆盖从快速验证到企业级生产的全场景需求。


1. 快速验证:对接阿里云百炼,开箱即用

对于希望快速验证业务场景、PoC 验证或进行数据探索的团队,阿里云百炼是最高效的选择。百炼提供了丰富的模型市场,包括千问(Qwen)系列、DeepSeek 等主流开源模型。


在 EMR Serverless Spark 中,您无需关心模型的部署、扩缩容或 API 鉴权细节,只需在百炼控制台获取密钥,即可在 SQL 中直接调用云端大模型。


场景实战:

假设您需要对 1000 万条电商用户评论进行情感分析和标签提取。过去这需要编写复杂的 Spark UDF 并管理并发限制。现在,只需一行 SQL:

SELECT 
  comment_id,
  ai_sentiment(comment_text, 'qwen3-max') as sentiment_analysis
FROM user_comments_table;


瞬间,大模型化身为您的数据清洗工。这种“零代码、零运维”的体验,让业务分析师也能直接驾驭大模型,将 PoC(概念验证)的时间从数周缩短至数小时。无论是文本摘要、实体抽取还是多轮对话模拟,百炼的强大算力都能通过简单的 SQL 函数触手可及。

image.png


2. 企业级定制:对接 PAI-EAS,安全可控

对于金融、医疗等对数据隐私极其敏感,或拥有自研微调模型的企业,PAI-EAS(模型在线服务)提供了坚实的底座。


您可以将私有模型(如基于内部数据微调的风控模型、医疗诊断模型)部署在 PAI-EAS 上,并通过 VPC 内网与 EMR Serverless Spark 打通。这不仅保证了数据不出域,更利用了阿里云内网的高速低延迟特性,实现了企业级的安全与性能双重保障。


场景实战:

在实时反欺诈场景中,数据隐私与安全至关重要。通过注册 PAI-EAS 服务为外部模型源,EMR Serverless Spark 能够在确保“数据不出域”的前提下,直接于计算流程中调用专属模型,实现便捷、高效的安全风控处理。

SELECT   
  remark,  
  ai_query(    
    CONCAT('请判断以下交易行为是否存在欺诈风险,仅回答是或否:', remark),    
    'my_bailian_fraud_service'  
  ) AS fraud_judgment  
FROM transactions;


这种架构的特点是:数据无需离开安全的 VPC 环境,直接在湖仓内部完成推理,既满足了严格的合规要求,又享受了 Serverless Spark 弹性计算带来的极致性能。

image.png


技术价值分析:为什么选择“SQL 即 AI”?

阿里云 EMR Serverless Spark 将 AI 能力原生融入 SQL 引擎,让“SQL 即 AI”不仅仅是一句口号,而是具备显著落地优势的实战方案:

  • 极致性价比:依托 Serverless 架构,按实际计算量和推理调用量付费。在大模型推理这种波峰波谷明显的场景下,相比传统预留资源模式,成本可大幅降低。
  • 网络零成本与低延迟:百炼、PAI 与 EMR 同属阿里云生态,内网互通免流量费,且延迟极低。相比之下,跨云或公网调用不仅慢,还会产生高昂的流量账单。
  • 全栈中文优化:内置针对中文语境优化的 Prompt 模板和模型参数,更懂中国业务逻辑,尤其在处理中文自然语言任务时表现卓越。
  • 安全合规:完全符合国内数据安全法规,提供细粒度的权限控制和审计日志,让企业用得更放心。


展望未来:构建 Data+AI 的无限可能

EMR Serverless Spark 与百炼、PAI 的集成,意味着ETL 不再是数据处理的唯一主角,AI 智能分析正式担当起关键决策者的角色。它并没有取代传统的机器学习流程,而是填补了大规模数据预处理与高阶认知推理之间的空白。


未来,随着多模态模型(图像、视频理解)和 Agent 编排能力的进一步融入,我们有望看到更复杂的场景在 SQL 层面得以实现:例如直接在 SQL 中分析监控视频流中的异常行为,或让 AI Agent 自主规划数据清洗步骤。对于技术团队而言,现在的重点不再是“如何构建一个能调用 AI 的系统”,而是“如何利用现有的数据资产,通过最简单的接口,快速验证 AI 带来的业务价值”。


阿里云 EMR Serverless Spark 诚邀您体验这一变革。无论您是希望通过百炼快速试错,还是通过 PAI 构建企业级 AI 应用,我们都已准备好助您一臂之力。

相关文章
|
6月前
|
人工智能 弹性计算 运维
EMR AI助手开启公测:用AI重塑大数据运维,更简单、更智能
EMR AI 助手开启公测,通过合理利用 EMR AI 助手的各项功能,可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等,能帮您提升运维效率和操作体验。
|
9天前
|
JSON 测试技术 API
GLM-5.1上线一个多月了,现在讨论变少了,我反而想聊聊它
实测显示GLM-5.1在指令遵从度和任务延续性上表现突出,虽与顶尖模型存在约5%性能差距,但性价比优势显著,已成为开发者工具箱中的重要选项。
211 6
|
SQL 监控 关系型数据库
ClickHouse快速入门 2
ClickHouse快速入门
858 0
|
2月前
|
XML JSON 数据挖掘
京东商品详情数据一键获取,item_get API接口讲解
京东item_get是获取单商品详情的核心API,支持一键拉取标题、价格、SKU、库存、详情HTML等结构化数据,适用于反向海淘、代购、ERP同步及比价分析等场景,分基础版与完整版,需认证授权后调用。(239字)
|
3月前
|
存储 分布式计算 数据建模
淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践:超大规模下的特征生产&多维分析双提效
本文介绍阿里云 Serverless Spark + Paimon 在淘宝闪购大数据湖仓场景的应用。
|
安全 Linux 数据中心
CentOS Stream的阿里云镜像站下载地址
CentOS Stream的阿里云镜像站下载地址
3218 0
|
1月前
|
存储 算法 定位技术
一套底座支撑多场景:高德地图基于 Paimon + StarRocks 轨迹服务实践
面对轨迹数据“高实时、高并发、长周期存储”的典型特征,高德团队以访问跨度为依据完成热/温/冷分层,并以 Apache Paimon + StarRocks 构建统一的数据底座,支撑轨迹数据的近实时写入与高性能查询。
|
1月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 构建云原生大数据架构,迁移后实现计算加速50%,核心链路产出时间提前1.5h,研发效率和稳定性显著提升!
|
23天前
|
JavaScript Android开发 数据安全/隐私保护
以cocos3.8.8开发的游戏为例商业实战项目举例cocos打包ios苹果安装包ipa完整详细教程-优雅草卓伊凡
本教程基于Cocos Creator 3.8.8,详解iOS IPA打包全流程:含环境配置(Xcode、Apple开发者账号)、构建面板设置(包名、屏幕方向、签名等)、Xcode工程配置、Archive归档及IPA导出,并附常见报错解决方案,理论+实操结合,助力开发者高效上架。
192 8
以cocos3.8.8开发的游戏为例商业实战项目举例cocos打包ios苹果安装包ipa完整详细教程-优雅草卓伊凡
|
5天前
|
缓存 监控 网络协议
一次 P99 偶发飙升到 5s 的排查实战:从 APM 一路追到 TCP 重传
监控告警 P99 飙到 5s,但 CPU 不满、DB 没慢查询、APM 看不出异常——所有应用层指标都正常,但用户就是说慢。本文完整复盘一次从 APM 链路追踪、tcpdump 抓包到 TCP 重传定位的真实排障过程,附 ss/tshark/BBR 等命令实操和 5 个网络层慢请求元凶 Checklist。
84 5