开源大数据平台 E-MapReduce-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1641

内容

活动

5427

关注

来自：大数据与机器学习

活动

小刘的大模型笔记

2月前

存储数据采集数据处理

博文

大模型RAG实战：从零搭建专属知识库问答助手

本文介绍如何用RAG技术从零搭建个人Python知识库问答助手，无需代码基础，低成本实现智能问答。涵盖数据准备、向量存储、检索生成全流程，附避坑技巧与优化方法，助力新手快速上手大模型应用。

573 0 1

阿里云大数据

2月前

分布式计算 Serverless 测试技术

博文

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark，体验“实时分析冠军”与“批处理之神”的极致性能表现！

384 1 1

游客xgetbzjx6kbsq

2月前

自然语言处理运维物联网

博文

大模型微调技术入门：从核心概念到实战落地全攻略

大模型微调是通过特定数据优化预训练模型的技术，实现任务专属能力。全量微调精度高但成本大，LoRA/QLoRA等高效方法仅调部分参数，显存低、速度快，适合工业应用。广泛用于对话定制、领域知识注入、复杂推理与Agent升级。主流工具如LLaMA-Factory、Unsloth、Swift等简化流程，配合EvalScope评估，助力开发者低成本打造专属模型。

427 16 17

阿里云大数据

1月前

存储分布式计算数据建模

博文

淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践：超大规模下的特征生产&多维分析双提效

本文介绍阿里云 Serverless Spark + Paimon 在淘宝闪购大数据湖仓场景的应用。

206 2 2

阿里云大数据

11月前

存储运维 Serverless

博文

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

1002 69 69

墨祤

19天前

存储分布式计算 OLAP

博文

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

人力家资深数据工程师石玉阳（Thorne），Flink-CDC Contributor，分享其公司湖仓一体实践：以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合，打通离线/实时/增量计算，支持多模态与DATA+AI演进，构建开放、统一、可持续的大数据架构。（239字）

126 2 2

墨祤

7月前

存储缓存 Apache

博文

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台，致力于通过埋点、采集、计算构建流量数据闭环，助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战，平台采用Flink+Paimon+StarRocks技术方案，实现高吞吐写入与秒级查询，优化存储成本与扩展性，提升日志分析效率。

923 1 1

墨祤

19天前

存储运维分布式计算

博文

诗悦游戏基于DLF与EMR StarRocks降本38%

诗悦网络（2014年成立）是千人规模的研运一体手游公司，代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》，其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维，总成本降38%，查询性能提升40%+，RPO=0，全面赋能实时/近实时/离线场景。

117 3 3

墨祤

12月前

存储 JSON 分布式计算

博文

StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

阿里集团在推进湖仓一体化建设过程中，依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性，实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效： A+ 业务借助 Paimon 的准实时入湖，显著降低了存储成本，并引入 StarRocks 提升查询性能。升级后，数据时效提前60分钟，开发效率提升50%；JSON列化存储减少50%，查询性能提升最高达10倍；OLAP分析中，非JOIN查询快1倍，JOIN查询快5倍。饿了么升级为准实时Lakehouse架构后，在时效性仅损失1-5分钟的前提下，实现Flink资源缩减、StarRocks查询性能提升（仅5%

1052 60 60

阿里云大数据

11月前

SQL 分布式计算 Serverless

博文

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求，采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升，支持业务快速发展、计算效率提升，增强SLA保障，稳定性提升，降低运维成本，并支撑全球化数据架构部署。

1190 56 57

墨祤

19天前

存储安全

博文

基于DLF构建实时数据湖

DLF

115 2 2

建站专业户

4月前

关系型数据库 MySQL PHP

博文

0 基础建站？PageAdmin CMS 10 分钟搞定，源码免费拿！

PageAdmin CMS 为无编程基础用户提供高效建站方案。步骤包括：准备服务器、域名及源码；上传源码并配置数据库；通过安装向导完成基础设置；在后台创建栏目、填充内容；测试功能后上线。全程无需编程，简单操作即可搭建独立网站，支持后续维护与扩展。

470 1 1

阿里云大数据

4月前

存储缓存 Cloud Native

博文

EMR StarRocks Stella 内核正式发布，登顶 TPC 榜单全球第一

EMR Serverless StarRocks 重磅发布全新企业级版本内核 Stella (StarRocks Efficient and Lightening-fast Lakehouse)，完全兼容开源 StarRocks，为用户提供企业级的产品功能、卓越的性能及稳定性保障。

409 1 1

阿里云大数据

11月前

存储分布式计算 OLAP

博文

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

701 59 59