开源大数据平台 E-MapReduce的搜索结果_热门

墨祤

|

博文

|

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，通过流式数据湖仓Paimon（使用DLF 2.0存储）和EMR StarRocks搭建流式湖仓。

# 云原生数据仓库AnalyticDB MySQL版 # 域名与网站 # 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 实时计算 Flink版 # 专有网络VPC # SQL # 流计算 # 关系型数据库 # MySQL # 数据库

阿里云大数据

|

10月前

|

博文

|

来自：大数据与机器学习

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

# 云原生数据仓库AnalyticDB MySQL版 # 云消息队列 Kafka 版 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 物联网 # Serverless # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark SQL 性能优化再进一步：CBO 基于代价的优化

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Spark

我是搞电商ap接口的

|

博文

|

来自：大数据与机器学习

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

小红书是一款广受喜爱的生活方式分享社交平台，涵盖旅行、美食等领域。其API允许开发者批量获取笔记内容、图片链接及用户互动数据，助力内容分析与营销策略优化。要使用API，需先注册开发者账号并通过认证获取密钥；随后依据官方文档构建与发送HTTP请求，最后处理JSON格式响应数据。整个过程中，请务必遵循平台使用条款，尊重用户隐私权。

# 开源大数据平台 E-MapReduce # JSON # API # 开发者 # 数据格式 # Python

阿里云大数据

|

12天前

|

博文

|

来自：大数据与机器学习

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

2025年12月20日，上海 · 阿里巴巴徐汇滨江园区，Apache Spark Meetup 助力企业构建高效数据平台，欢迎报名！

# 开源大数据平台 E-MapReduce # 分布式计算 # Serverless # 数据处理 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Delta Lake，让你从复杂的Lambda架构中解放出来

Linux 基金会的 Delta Lake（Delta.io）是一个给数据湖提供可靠性的开源存储层软件。在 QCon 全球软件开发大会（上海站）2019 的演讲中，Databricks 公司的 Engineering Manager 李潇带我们了解了 Delta Lake 在实际生产中的应用与实践以及未来项目规划，本文便整理自此次演讲。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # SQL # 分布式计算 # 大数据 # 数据处理 # API # Apache # HIVE # Spark # 流计算

阿里云大数据Al技术

|

博文

|

来自：大数据与机器学习

基于 Delta Lake 构建数据湖仓体系

本文整理自阿里云开源大数据平台技术专家毕岩在7月17日阿里云数据湖技术专场交流会的分享。

# 云原生数据仓库AnalyticDB MySQL版 # 实时计算 Flink版 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # SQL # 存储 # JSON # 分布式计算 # 大数据 # 关系型数据库 # HIVE # Spark # 数据格式 # 流计算

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 版开启免费公测

EMR Serverless Spark 版免费公测已开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。

# 对象存储 # 函数计算 # 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # Serverless # 数据处理 # Spark

墨祤

|

4月前

|

博文

|

来自：大数据与机器学习

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台，致力于通过埋点、采集、计算构建流量数据闭环，助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战，平台采用Flink+Paimon+StarRocks技术方案，实现高吞吐写入与秒级查询，优化存储成本与扩展性，提升日志分析效率。

# 日志服务 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # Apache # 流计算 # 索引

墨祤

|

博文

|

来自：大数据与机器学习

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构，支持实时湖仓分析，适用于多种 OLAP 场景。结合 Paimon 与 Flink，助力企业高效处理海量数据，广泛应用于游戏、教育、生活服务等领域，显著提升数据分析效率与业务响应速度。

# 开源大数据平台 E-MapReduce # DataWorks # 数据挖掘 # Serverless # OLAP # 流计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce