分布式计算的搜索结果-阿里云开发者社区

阿里云Mia

|

3天前

|

博文

|

EMR Serverless Spark AI Function 的双维降本实践

EMR Serverless Spark AI Function 已在智驾、具身智能等行业广泛落地。随着数据规模增长，如何控制由模型推理与Spark计算资源构成的双重成本愈发关键。本文深入解析并发控制等执行机制，并重点介绍两大降本手段：一是通过感知AI Function的查询优化减少模型调用量；二是利用Batch File异步批量推理降低单价并释放等待期资源。两者适用场景各异且可叠加使用，助力企业实现高效降本。

# 开源大数据平台 E-MapReduce # SQL # 人工智能 # 分布式计算 # Serverless # Spark

SelectDB

|

4天前

|

博文

Apache Doris 4.1 全面增强 Iceberg：支持 UPDATE、MERGE INTO 与 Iceberg V3

Apache Doris 4.1 实现 Iceberg 表“查、改、维”一体化：原生支持 UPDATE/DELETE/MERGE、表结构演进及 rewrite_data_files 等操作，并完整兼容 Iceberg V3（Deletion Vector + Row Lineage），让用户在单一 SQL 环境中完成问题定位、数据修正与日常维护，彻底告别跨系统协作。

# SQL # 分布式计算 # Apache # Spark # 流计算

阿里云Mia

|

4天前

|

博文

|

来自：大数据与机器学习

活动报名 | Agentic Lakehouse Meetup · 北京站，从开源技术创新到多模态数据智能化

8月14日，阿里云在北京举办“Agentic Lakehouse”技术活动，聚焦开源大数据生态如何支撑AI Agent全生命周期。

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # 大数据 # Spark # 存储

游客mfciqcareri6a

|

4天前

|

博文

数据治理工具哪家好？2026年使用体验测评

历时3个月选型调研、2轮POC实测、6个月生产环境深度使用，我最终将企业数据治理的"底座"交给了瓴羊Dataphin。它不是功能最多的，但它是唯一一个让我觉得"方法论真正跑通了"的产品——阿里巴巴十余年OneData体系沉淀、EB级数据实战验证、2026年业内首发的数据资产智能体DataAgent，三者叠加后产生的治理效果，远超我此前用过的任何拼凑方案。以下是完整真实记录。

# SQL # 数据采集 # 人工智能 # 分布式计算 # 自然语言处理

阿里云Mia

|

6天前

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

针对大模型语料清洗中文本去重面临的性能瓶颈，某企业迁移至阿里云emr serverless spark后实现突破。新方案通过minhash-lsh内置函数将算法下沉引擎层，减少40%代码量；结合fusion engine向量化加速与shuffle优化，消除python udf跨进程开销并解决数据倾斜问题。实测去重性能提升4倍，任务耗时从天级降至小时级，且实现零shuffle失败与免运维。该实践验证了serverless架构在pb级数据预处理中的高效性与稳定性，显著加速模型迭代并降低计算成本。

# 开源大数据平台 E-MapReduce # 分布式计算 # 运维 # 自然语言处理 # Serverless # Spark

行者|全栈架构师

|

7天前

|

博文

|

来自：云原生

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

运营每天早上等2小时才能看到昨天的销售报表，大促实时数据全靠手工导Excel——这是多数企业的真实困境。我在一个日均订单50万+的电商平台中，基于阿里云 Hologres + Flink 搭建实时OLAP分析平台后，实现数据5秒入库、大屏秒级响应、报表从T+1升级到秒级。本文从传统OLAP痛点出发，详解Hologres架构原理、实例创建与表设计、Flink实时管道搭建、Spring Boot集成、数据治理，以及5个生产踩坑实录和OLAP选型决策树。

# 实时数仓 Hologres # SQL # 分布式计算 # OLAP # MaxCompute # 流计算

行者|全栈架构师

|

9天前

|

博文

|

来自：云原生

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

数据团队每天产出的报表都是昨天的数据，运营决策永远慢一拍——我们在日均订单 50 万+的电商平台中，基于阿里云 EMR + Flink + DataHub + Hologres + DataWorks 搭建实时数仓，让数据从产生到可查仅 5 秒，GMV 实时看板让运营决策提前 24 小时。本文从离线数仓 5 大痛点出发，详解实时数仓架构设计、EMR 集群搭建、Flink 实时计算全链路开发、ODS→DWD→DWS→ADS 数据分层、DataWorks 混合调度，以及 5 个生产踩坑实录和最佳实践。

# 实时数仓 Hologres # SQL # 存储 # 分布式计算 # 对象存储 # 流计算

灵杰开发者

|

12天前

|

博文

|

来自：大数据与机器学习

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

当图片、视频、文本和向量在 Paimon 中增长到 PB 级，传统“同步到湖外再建索引”的方式，会让搜索面临数据就绪慢、第二份事实数据成本高和版本治理复杂等问题。本文介绍阿里云 Elasticsearch 9.4 Search Lake 如何直接挂载与 Paimon 表版本关联的 Global Index，在不复制事实数据的前提下提供 BM25、kNN、结构化过滤、排序与聚合能力，并结合多模态样本湖场景拆解方案架构、Demo 及性能与成本取舍。关键词：Search Lake、Apache Paimon、Elasticsearch 9.4、Global Index、OpenLake、多模态检索

# 检索分析服务 Elasticsearch版 # SQL # 分布式计算 # 对象存储 # Spark # 索引

游客wmen2wljmyuqy

|

16天前

|

博文

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

本文提供了一份关于阿里云数据总线DataHub的完整对接使用指南。DataHub是阿里云自研的全托管流式数据处理平台，核心定位为实时数据管道枢纽。文章从基础概念入手，详细解析了Project、Topic、Shard、Connector四大核心组件的功能与协作关系，并梳理了对接前的账号权限、网络Endpoint选择等准备工作。随后通过控制台操作演示了Project与Topic的创建流程，并深入讲解了Java与Python SDK的生产者与消费者实现，包含完整的代码示例。在数据同步方面，文章阐述了DataConnector如何将数据实时投递至MaxCompute、OSS、RDS等下游服务，并给出了

# 数据总线 DataHub # 分布式计算 # 监控 # 关系型数据库 # MaxCompute # 开发工具

阿里云存储

|

16天前

|

博文

|

来自：云存储

AutoMQ x 阿里云 OSS Tables：基于 Iceberg 构建流表一体的实时入湖

实时数据入湖效率影响分析时效。传统Kafka→Flink→Iceberg链路需维护同步任务与表优化，成本高、运维重。AutoMQ x OSS Tables新方案实现Kafka Topic自动物化为Iceberg表，并在OSS侧提供托管Catalog与自动化Compaction，端到端简化架构，零额外计算负担，支持Schema演进与CDC Upsert，大幅提升实时入湖可靠性与效率。（239字）

# 消息中间件 # 存储 # 分布式计算 # Kafka # 对象存储

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

分布式计算