开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1626
内容
12
活动
5387
关注
|
5月前
|
存储 SQL 数据可视化
|
置顶

阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式

EMR StarRocks 线上公开课第1期 ,直播主题:EMR Serverless StarRocks3.x,极速统一的湖仓新范式。

1036 1
|
4月前
|
SQL 运维 Serverless
|
置顶

阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。

313 5
|
7天前
|
存储 人工智能 分布式计算
|

云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。

68 10
|
9天前
|
SQL 分布式计算 Serverless
|

阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!

49 3
|
14天前
|
JSON API 开发者
|

小红书 API 接口使用指南:笔记详情数据接口的接入与使用

小红书是一款广受喜爱的生活方式分享社交平台,涵盖旅行、美食等领域。其API允许开发者批量获取笔记内容、图片链接及用户互动数据,助力内容分析与营销策略优化。要使用API,需先注册开发者账号并通过认证获取密钥;随后依据官方文档构建与发送HTTP请求,最后处理JSON格式响应数据。整个过程中,请务必遵循平台使用条款,尊重用户隐私权。

39 0
|
1月前
|
SQL 存储 NoSQL
|

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。

145 2
|
2月前
|
SQL 大数据 数据管理
|

EMR Serverless StarRocks体验测评

【8月更文挑战第14天】EMR Serverless StarRocks体验测评

40 0
|
2月前
|
分布式计算 Serverless 数据处理
|

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。

157 0
|
2月前
|
人工智能 JSON 算法
|

不是吧?这么好用的开源标注工具,竟然还有人不知道…

LabelU是一款专为AI项目设计的强大多模态数据标注工具,支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项,让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作,以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全,也提供在线版本方便快速上手。此外,OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具,进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情,并为这些优秀工具点赞支持!

74 0
|
3月前
|
弹性计算 分布式计算 运维
|

迟来的EMR Serverless Spark评测报告

本文是一篇关于阿里云EMR Serverless Spark产品评测的文章,作者分享了使用体验和理解。EMR Serverless Spark是阿里云提供的全托管、一站式的Spark数据计算平台,简化了大数据处理流程,让用户专注于数据分析。文章提到了产品的主要优势,如快速启动、弹性伸缩、高资源利用率和低成本。

210 8
|
3月前
|
存储 JSON 分布式计算
|

DataWorks操作报错合集之在处理元数据存储时发生报错:ODPS-0010000,该如何处理

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

95 1
|
3月前
|
分布式计算 Java Serverless
|

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

368 7
|
3月前
|
存储 SQL 缓存
|

【报名中】阿里云 x StarRocks:极速湖仓第二季—上海站

阿里云 x StarRocks:极速湖仓第二季,7月20日阿里巴巴上海徐汇滨江园区,现场签到丰富奖品等你拿,不见不散!

305 7
|
3月前
|
存储 数据挖掘 OLAP
|

阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析

阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。

19155 12
|
3月前
|
SQL 分布式计算 Java
|

E-MapReduce Serverless Spark体验评测

从了解到部署实践,全方位带你体验大数据平台EMR Serverless Spark的魅力。

275 7
|
3月前
|
分布式计算 运维 Serverless
|

EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务,展示其在流处理方面的易用性和可运维性。

250 7
|
3月前
|
调度 知识图谱
|

【综合能源】含氢气氨气综合能源系统优化调度【免费】

该程序参考《_基于氨储能技术的电转氨耦合风–光–火综合能源系统双层优化调度》模型,对制氨工厂、风力发电、电制氢、燃气轮机、火电机组等主体进行建模分析,以火电机组启停成本、煤耗成本、弃风成本和购气成本形成的综合成本为目标,程序采用matlab+cplex求解,注释清晰,方便学习!

97 0
|
4月前
|
消息中间件 存储 大数据
|

深度分析:Apache Kafka及其在大数据处理中的应用

Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。

251 0
|
4月前
|
分布式计算 运维 数据挖掘
|

【评测有奖】参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品!

即日起至2024年7月18日,参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品!

157 7
|
4月前
|
分布式计算 Serverless 调度
|

EMR Serverless Spark:结合实时计算 Flink 基于 Paimon 实现流批一体

本文演示了使用实时计算 Flink 版和 Serverless Spark 产品快速构建 Paimon 数据湖分析的流程,包括数据入湖 OSS、交互式查询,以及离线Compact。Serverless Spark完全兼容Paimon,通过内置的DLF的元数据实现了和其余云产品如实时计算Flink版的元数据互通,形成了完整的流批一体的解决方案。同时支持灵活的作业运行方式和参数配置,能够满足实时分析、生产调度等多项需求。

60759 107
|
5月前
|
SQL 分布式计算 监控
|

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。

56580 7
|
5月前
|
存储 分布式计算 Serverless
|

阿里云 EMR Serverless Spark 版开启免费公测

EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。

606 5
|
5月前
|
自然语言处理 搜索推荐 机器人
|

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型,预训练于多样化数据集,支持18亿至720亿参数规模。在多模态英文任务中表现出色,且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互,提供智能体验。然而,模型在逻辑题和指令理解上存在不足,需在特定领域进行优化。

1087 1
|
5月前
|
分布式计算 资源调度 Hadoop
|

Apache Hadoop入门指南:搭建分布式大数据处理平台

【4月更文挑战第6天】本文介绍了Apache Hadoop在大数据处理中的关键作用,并引导初学者了解Hadoop的基本概念、核心组件(HDFS、YARN、MapReduce)及如何搭建分布式环境。通过配置Hadoop、格式化HDFS、启动服务和验证环境,学习者可掌握基本操作。此外,文章还提及了开发MapReduce程序、学习Hadoop生态系统和性能调优的重要性,旨在为读者提供Hadoop入门指导,助其踏入大数据处理的旅程。

849 0
|
5月前
|
SQL 分布式计算 大数据
|

Paimon 与 Spark 的集成(二):查询优化

通过一系列优化,我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%,已基本和 Parquet x Spark 持平,本文对其中的关键优化点进行了详细介绍。

118121 30
|
5月前
|
API 开发者
|

1688API接口推荐:1688口令转换真实链接接口

1688平台的item_password接口用于将淘口令短链接转为商品链接。开发者需注册获取API key和secret,通过POST或GET请求接口,输入淘口令代码和参数,返回结果包含商品ID和详细链接。商品详情可进一步通过商品详情接口获取。注意遵守1688平台的规定和条款,确保合法使用API。

184 0
|
5月前
|
数据采集 JavaScript 前端开发
|

实用工具推荐:适用于 TypeScript 网络爬取的常用爬虫框架与库

实用工具推荐:适用于 TypeScript 网络爬取的常用爬虫框架与库

326 0
|
5月前
|
机器学习/深度学习 算法 API
|

1688API接口推荐:1688按图搜索拍立淘数据接口

1688API接口推荐:1688按图搜索拍立淘数据接口

535 4
|
5月前
|
SQL 数据可视化 数据挖掘
|

EMR Notebook 开启公测,提供交互式数据分析平台

EMR Notebook 是一个 Serverless 化的交互式数据分析和探索平台,满足大数据和 AI 融合下的数据处理需求,现已开启免费公测,欢迎体验!

353 4
|
5月前
|
云安全 弹性计算 Linux
|

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定:从入门到精通

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定:从入门到精通。

903 0
|
5月前
|
分布式计算 运维 大数据
|

阿里云 EMR Serverless Spark 版免费邀测中

阿里云 EMR Serverless Spark 版,以 Spark Native Engine 为基础,旨在提供一个全托管、一站式的数据开发平台。诚邀您参与 EMR Serverless Spark 版免费测试,体验 100% 兼容 Spark 的 Serverless 服务:https://survey.aliyun.com/apps/zhiliao/iscizrF54

940 0
|
5月前
|
存储 分布式计算 Apache
|

阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse

Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。

65200 1
|
5月前
|
SQL Serverless OLAP
|

实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站

1月20日深圳阿里中心,阿里云 x StarRocks 邀你现场体验云上极速湖仓实战营,从 0-1 轻松上手 StarRocks 湖仓分析。

820 0
|
5月前
|
存储 人工智能 运维
|

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

本文从轻喜到家的历史技术架构与痛点问题、架构升级需求与 OLAP 选型过程、最新技术架构及落地场景应用等方面,详细介绍了轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践经验。

1147 0
|
5月前
|
存储 运维 数据可视化
|

【技术分析】低代码平台的专有存储技术

低代码是一个新兴的技术,有着非常明确而鲜明的技术特点,比如:拖拽组件、可视化编程、零代码编程等等。但传统软件企业在进行技术融合时却往往是困难重重,旧有的技术积累很难能继承应用过来。本文作为一组技术分析,来逐一分解低代码背后的支撑技术。今天我们给大家带来的一个专题分析是,低代码平台的专有存储技术。

442 0
|
5月前
|
XML JSON API
|

Json实现根据关键词搜索请求唯品会商品列表数据方法,唯品会商品列表数据接口,唯品会API接口申请指南,支持全站

Json实现根据关键词搜索请求唯品会商品列表数据方法,唯品会商品列表数据接口,唯品会API接口申请指南,支持全站

158 1
|
5月前
|
JSON API 数据格式
|

Json实现根据关键词搜索请求1688商品列表数据方法,1688商品列表数据接口,1688API接口申请指南

Json实现根据关键词搜索请求1688商品列表数据方法,1688商品列表数据接口,1688API接口申请指南

161 0
|
5月前
|
关系型数据库 MySQL BI
|

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。

1173 0
|
10月前
|
存储 SQL Java
|

王日宇:基于 StarRocks 和 Paimon 打造湖仓分析新范式

本文根据 StarRocks Summit 2023 演讲实录整理而成,主要分享了基于 StarRocks 和 Paimon 打造湖仓分析方案及背后的技术原来和未来规划。

1367 1
|
10月前
|
存储 人工智能 大数据
|

2023云栖陈守元,阿里云开源大数据产品年度发布

阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。

435 3
|
10月前
|
缓存 运维 Cloud Native
|

李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣

本文根据 StarRocks Summit 2023 演讲实录整理而成

618 2
|
10月前
|
数据采集 安全 中间件
|

python爬虫中 HTTP 到 HTTPS 的自动转换

python爬虫中 HTTP 到 HTTPS 的自动转换

117 0
|
11月前
|
存储 SQL 缓存
|

【云栖2023】李钰:阿里云 E-MapReduce 全面开启 Serverless 时代

本文根据 2023 云栖大会,阿里云资深技术专家、阿里云开源大数据平台EMR负责人李钰演讲实录整理而成。

522 1
|
11月前
|
存储 人工智能 Cloud Native
|

耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景

喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》

46751 5
|
12月前
|
存储 OLAP 云栖大会
|

来云栖大会看 “ 云+StarRocks 3.0:极速统一的湖仓新范式 ”

2023 云栖大会来啦,众多主题活动与你同聚,门票免费领取中,数量有限,先到先得!

473 0
|
12月前
|
XML JSON 缓存
|

Json实现根据关键词搜索请求淘宝商品列表数据方法,淘宝商品列表数据接口,淘宝API接口申请指南

Json实现根据关键词搜索请求淘宝商品列表数据方法,淘宝商品列表数据接口,淘宝API接口申请指南

247 0
|
SQL 分布式计算 Cloud Native
|

杭州 Meetup| Apache Kyuubi & Celeborn,助力 Spark 拥抱云原生

10月14日13:00-17:30,Apache Kyuubi & Celeborn 社区将在杭州举办「Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生」Meetup,欢迎报名参会!

799 0
|
存储 SQL 监控
|

阿里云“玩转云上 StarRocks3.0 湖仓分析”训练营火热报名中,开启数据分析新范式

阿里云 EMR OLAP 团队与 StarRocks 社区联合出品,玩转云上 StarRocks3.0 湖仓分析训练营,围绕 StarRocks3.0 系列解读、EMR Serverless StarRocks 存算分离功能与应用场景介绍,开启数据分析新范式!

864 0
|
数据库 数据安全/隐私保护
|

阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案

社区开源Ldap密码不安全问题解决方案

539 0
|
SQL 弹性计算 分布式计算
|

使用EMR+DLF+OSS-HDFS进行数据湖分析

本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析

715 0
我要发布