开源大数据平台 E-MapReduce的搜索结果

阿里云Mia

|

1天前

|

博文

|

淘天集团基于 Fluss、Paimon 与 StarRocks 构建湖流一体数据链路

针对淘天集团秒级分析需求，构建基于Fluss、Paimon与StarRocks的湖流一体架构。Flusss承载秒级实时数据，Paimon沉淀分钟及历史数据，StarRocks通过Union Read统一查询，实现数据自动同步与口径一致。相比传统Kafka+Flink链路，新方案消除实时孤岛，降低80以上消费成本，提升50%开发效率。阿里云EMR Serverless StarRocks通过Native读取等增强，进一步简化运维，实现低成本、高性能的秒级实时OLAP分析。

# 开源大数据平台 E-MapReduce # 存储 # 消息中间件 # 运维 # OLAP # Serverless

阿里云Mia

|

1天前

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark AI Function 的双维降本实践

EMR Serverless Spark AI Function 已在智驾、具身智能等行业广泛落地。随着数据规模增长，如何控制由模型推理与Spark计算资源构成的双重成本愈发关键。本文深入解析并发控制等执行机制，并重点介绍两大降本手段：一是通过感知AI Function的查询优化减少模型调用量；二是利用Batch File异步批量推理降低单价并释放等待期资源。两者适用场景各异且可叠加使用，助力企业实现高效降本。

# 开源大数据平台 E-MapReduce # SQL # 人工智能 # 分布式计算 # Serverless # Spark

阿里云Mia

|

1天前

|

博文

|

来自：大数据与机器学习

【直播】StarRocks Stella 2.0 发布｜具身行业训练数据圈选实战

EMR StarRocks Stella 2.2.0 多模态数据处理与检索能力重磅发布！揭秘文本、图片、视频的统一向量化与多模态理解，实战演示具身行业训练数据圈选全流程，从向量化标注到模型训练准备，助力智能驾驶、RAG等场景落地，理论+实操一站式掌握！

# 开源大数据平台 E-MapReduce # SQL # 数据采集 # 人工智能 # 运维 # 数据处理

阿里云Mia

|

2天前

|

博文

|

来自：大数据与机器学习

活动报名 | Agentic Lakehouse Meetup · 北京站，从开源技术创新到多模态数据智能化

8月14日，阿里云在北京举办“Agentic Lakehouse”技术活动，聚焦开源大数据生态如何支撑AI Agent全生命周期。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # 大数据 # Spark # 存储

阿里云Mia

|

3天前

|

博文

|

来自：大数据与机器学习

基于 StarRocks提效多模态工单标注与舆情研判的实践

针对消费金融多模态数据（语音、图片、文本）处理难、风险识别滞后及系统割裂痛点，方案基于阿里云 EMR Serverless StarRocks，利用 AI Function实现“推理即查询”。通过标准SQL直接在库内调用大模型，完成OSS文件映射、VLM/ASR识别、情感意图打标、向量生成及内外舆情交叉印证。该方案将非结构化数据转化为可计算资产，实现全量工单自动质检与实时高危预警。相比传统链路，显著降低工程复杂度与成本，提升合规效率，确保数据不出库，为金融风控提供高效、安全的多模态闭环解决方案。

# 开源大数据平台 E-MapReduce # SQL # 人工智能 # BI # 数据处理 # 对象存储

阿里云Mia

|

4天前

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

针对大模型语料清洗中文本去重面临的性能瓶颈，某企业迁移至阿里云emr serverless spark后实现突破。新方案通过minhash-lsh内置函数将算法下沉引擎层，减少40%代码量；结合fusion engine向量化加速与shuffle优化，消除python udf跨进程开销并解决数据倾斜问题。实测去重性能提升4倍，任务耗时从天级降至小时级，且实现零shuffle失败与免运维。该实践验证了serverless架构在pb级数据预处理中的高效性与稳定性，显著加速模型迭代并降低计算成本。

# 开源大数据平台 E-MapReduce # 分布式计算 # 运维 # 自然语言处理 # Serverless # Spark

阿里云Mia

|

11天前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless StarRocks（Stella 2.2.0）发布：多模态处理与分析闭环，内表与湖表统一检索

Stella 2.2 面向 AI 时代的数据基础设施，打通“多模态数据处理—向量化与理解—多路检索—分析消费”的完整闭环。无论数据沉淀在 Paimon 湖表，还是 StarRocks 存算分离内表，都可以在统一 SQL 入口下组合结构化分析、全文检索、向量检索与 AI Function，服务智能驾驶、具身智能、内容与商品理解、企业知识库和 RAG 等场景。

# 开源大数据平台 E-MapReduce # SQL # 人工智能 # 缓存 # Serverless # 索引

阿里云大数据

|

17天前

|

博文

|

来自：大数据与机器学习

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

阿里云 EMR Serverless Spark 引入 Ray 分布式计算框架与 Daft 高性能数据引擎，为用户提供了一套开箱即用、免运维且极致高效的多模态数据处理基础设施。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # Serverless # 数据处理 # 对象存储

阿里云Mia

|

17天前

|

博文

|

来自：大数据与机器学习

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

StarRocks x Fluss x Paimon 湖流一体方案通过将 Apache Fluss（面向分析场景的实时流存储）与 Apache Paimon（高性能湖格式表）深度融合，以 StarRocks 作为统一查询入口，构建了一套具备秒级新鲜度、十倍成本降低、一份数据一次查询的全新实时数据引擎。本文将介绍该方案的核心架构、技术优势、查询模式以及在阿里云 EMR Serverless StarRocks 上的产品化落地。

# 开源大数据平台 E-MapReduce # 消息中间件 # 存储 # Kafka # Serverless # 流计算

扬流

|

17天前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

阿里云 EMR Serverless Spark + Ray 双引擎构建全模态数据处理的新基建，通过极致内核优化和统一数据、算力底座，彻底打通了大数据工程与 AI 模型训练的割裂。结合 RayData、Daft、Data-Juicer 等多模态引擎，以及 CPFS、OSS 等高性能存储生态，阿里云正在为全球的 AI 开发者提供一套最具竞争力的数据新基建。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # Serverless # Spark # 数据处理

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce