Spark的搜索结果-阿里云开发者社区

阿里云Mia

|

2天前

|

博文

|

EMR Serverless Spark AI Function 的双维降本实践

EMR Serverless Spark AI Function 已在智驾、具身智能等行业广泛落地。随着数据规模增长，如何控制由模型推理与Spark计算资源构成的双重成本愈发关键。本文深入解析并发控制等执行机制，并重点介绍两大降本手段：一是通过感知AI Function的查询优化减少模型调用量；二是利用Batch File异步批量推理降低单价并释放等待期资源。两者适用场景各异且可叠加使用，助力企业实现高效降本。

# 开源大数据平台 E-MapReduce # SQL # 人工智能 # 分布式计算 # Serverless # Spark

SelectDB

|

2天前

|

博文

Apache Doris 4.1 全面增强 Iceberg：支持 UPDATE、MERGE INTO 与 Iceberg V3

Apache Doris 4.1 实现 Iceberg 表“查、改、维”一体化：原生支持 UPDATE/DELETE/MERGE、表结构演进及 rewrite_data_files 等操作，并完整兼容 Iceberg V3（Deletion Vector + Row Lineage），让用户在单一 SQL 环境中完成问题定位、数据修正与日常维护，彻底告别跨系统协作。

# SQL # 分布式计算 # Apache # Spark # 流计算

阿里云Mia

|

2天前

|

博文

|

来自：大数据与机器学习

活动报名 | Agentic Lakehouse Meetup · 北京站，从开源技术创新到多模态数据智能化

8月14日，阿里云在北京举办“Agentic Lakehouse”技术活动，聚焦开源大数据生态如何支撑AI Agent全生命周期。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # 大数据 # Spark # 存储

阿里云Mia

|

5天前

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

针对大模型语料清洗中文本去重面临的性能瓶颈，某企业迁移至阿里云emr serverless spark后实现突破。新方案通过minhash-lsh内置函数将算法下沉引擎层，减少40%代码量；结合fusion engine向量化加速与shuffle优化，消除python udf跨进程开销并解决数据倾斜问题。实测去重性能提升4倍，任务耗时从天级降至小时级，且实现零shuffle失败与免运维。该实践验证了serverless架构在pb级数据预处理中的高效性与稳定性，显著加速模型迭代并降低计算成本。

# 开源大数据平台 E-MapReduce # 分布式计算 # 运维 # 自然语言处理 # Serverless # Spark

灵杰开发者

|

11天前

|

博文

|

来自：大数据与机器学习

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

当图片、视频、文本和向量在 Paimon 中增长到 PB 级，传统“同步到湖外再建索引”的方式，会让搜索面临数据就绪慢、第二份事实数据成本高和版本治理复杂等问题。本文介绍阿里云 Elasticsearch 9.4 Search Lake 如何直接挂载与 Paimon 表版本关联的 Global Index，在不复制事实数据的前提下提供 BM25、kNN、结构化过滤、排序与聚合能力，并结合多模态样本湖场景拆解方案架构、Demo 及性能与成本取舍。关键词：Search Lake、Apache Paimon、Elasticsearch 9.4、Global Index、OpenLake、多模态检索

# 检索分析服务 Elasticsearch版 # SQL # 分布式计算 # 对象存储 # Spark # 索引

扬流

|

18天前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

阿里云 EMR Serverless Spark + Ray 双引擎构建全模态数据处理的新基建，通过极致内核优化和统一数据、算力底座，彻底打通了大数据工程与 AI 模型训练的割裂。结合 RayData、Daft、Data-Juicer 等多模态引擎，以及 CPFS、OSS 等高性能存储生态，阿里云正在为全球的 AI 开发者提供一套最具竞争力的数据新基建。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # Serverless # Spark # 数据处理

阿里云大数据

|

18天前

|

博文

|

来自：大数据与机器学习

阿里云大数据 AI 产品月刊-2026年6月

阿里云大数据& AI 产品技术月刊【2026 年 6 月】，涵盖 6 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

# 人工智能 # 分布式计算 # DataWorks # 大数据 # Spark

七牛开发者

|

18天前

|

博文

AI Slop 图鉴来了，TypeScript 7 快了 10 倍，MiniMax 市值蒸发近四分之三

本期「周一上线」聚焦AI圈新鲜事：社区创意频出——AI slop图鉴、反AI字体Ghost Font、桌面AI小电视；大厂密集发版——GPT-Live语音模型、Grok 4.5、SWE-1.7、Muse Spark 1.1、TypeScript 7；开源新锐涌现，涵盖多Agent工作站、安全技能路由、3D建模插件等。

# 人工智能 # 分布式计算 # JavaScript # API # Spark

萧少聪scott

|

19天前

|

博文

GPT-5.6 Sol & Subagent 不但聪明，更会分工

不需要什么都用 Sol Ultra，SugAgents 帮你按需调用最合适的模型，省钱又省心！！！

# 人工智能 # 分布式计算 # 安全 # 调度 # Spark

游客wmen2wljmyuqy

|

20天前

|

博文

阿里云EMR大数据集群网站运营数据统计完全实战指南

本文全面讲解如何利用阿里云EMR大数据集群搭建企业级网站运营数据统计分析平台。文章从EMR的三种产品形态入手，详细阐述集群创建前的账号授权与网络规划、控制台创建集群的关键配置项、多种数据源（OSS、RDS等）的对接方式、Spark SQL与Hive任务的开发示例、RAM权限管理体系、集群监控告警配置，以及计算与存储分离架构下的成本优化最佳实践。通过完整的用户画像分析案例，展示从数据同步、数据加工到数据消费的全流程，帮助读者快速掌握使用EMR进行网站运营数据统计的核心技能。全文包含完整的代码示例和配置参数说明，适合大数据开发工程师、数据架构师及运维人员阅读。

# SQL # 存储 # 分布式计算 # BI # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark