开源大数据平台 E-MapReduce的搜索结果_热门

扬流

|

博文

|

来自：大数据与机器学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

# 开源大数据平台 E-MapReduce # 对象存储 # 日志服务 # 云解析DNS # 存储 # 数据采集 # 机器学习/深度学习 # 分布式计算 # 大数据 # BI # 数据库 # 对象存储 # Spark # 数据格式

时不我与爱铭

|

博文

|

来自：大数据与机器学习

深度分析：Apache Kafka及其在大数据处理中的应用

Apache Kafka是高吞吐、低延迟的分布式流处理平台，常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ（吞吐量有限）、Pulsar（多租户支持但生态系统小）和Amazon Kinesis（托管服务，成本高）对比，Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素，使用时注意资源配置、数据管理、监控及安全性。

# 云消息队列 Kafka 版 # 日志服务 # 云消息队列 MQ # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 消息中间件 # 存储 # 大数据 # Kafka # Apache

我是搞电商ap接口的

|

12月前

|

博文

|

来自：大数据与机器学习

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

小红书是一款广受喜爱的生活方式分享社交平台，涵盖旅行、美食等领域。其API允许开发者批量获取笔记内容、图片链接及用户互动数据，助力内容分析与营销策略优化。要使用API，需先注册开发者账号并通过认证获取密钥；随后依据官方文档构建与发送HTTP请求，最后处理JSON格式响应数据。整个过程中，请务必遵循平台使用条款，尊重用户隐私权。

# 开源大数据平台 E-MapReduce # JSON # API # 开发者 # 数据格式 # Python

探索云世界

|

2月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

作者：玄橙 - 阿里云 EMR Serverless Spark 产品专家 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它100%兼容开源 Spark 生态，能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark，企业可以更专注于数据处理分析和模型训练调优，提高工作效率。今天我将从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍一下 EMR Serverless Spark 这款产品。

# 函数计算 # 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # Serverless # 调度 # Spark

扬流

|

博文

|

来自：大数据与机器学习

阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

开源大数据平台 EMR 产品技术月刊，涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解开源大数据最新动态。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 云原生数据仓库AnalyticDB MySQL版 # 弹性伸缩 # 函数计算 # 密钥管理服务 # SQL # 弹性计算 # 分布式计算 # 运维 # 监控 # 大数据 # Serverless # 数据安全/隐私保护 # HIVE # Spark

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在《阿里云 x StarRocks：极速湖仓第二季—上海站》的分享。

# 实时计算 Flink版 # 云数据库 Tair（兼容 Redis） # 函数计算 # 开源大数据平台 E-MapReduce # 云原生数据仓库AnalyticDB MySQL版 # SQL # 存储 # NoSQL # Redis # HIVE

阿里云大数据

|

7月前

|

博文

|

来自：大数据与机器学习

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

# 云原生数据仓库AnalyticDB MySQL版 # 云消息队列 Kafka 版 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 物联网 # Serverless # Spark

墨祤

|

6月前

|

博文

|

来自：大数据与机器学习

StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

阿里集团在推进湖仓一体化建设过程中，依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性，实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效： A+ 业务借助 Paimon 的准实时入湖，显著降低了存储成本，并引入 StarRocks 提升查询性能。升级后，数据时效提前60分钟，开发效率提升50%；JSON列化存储减少50%，查询性能提升最高达10倍；OLAP分析中，非JOIN查询快1倍，JOIN查询快5倍。饿了么升级为准实时Lakehouse架构后，在时效性仅损失1-5分钟的前提下，实现Flink资源缩减、StarRocks查询性能提升（仅5%

# 开源大数据平台 E-MapReduce # 存储 # JSON # 分布式计算 # 流计算 # 数据格式

扬流

|

博文

|

来自：大数据与机器学习

Spark+Celeborn：更快，更稳，更弹性

本文整理自阿里云 EMR Spark 团队的周克勇（一锤），在 Spark&DS Meetup 的分享。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 对象存储 # 负载均衡 # 存储 # 分布式计算 # Kubernetes # 负载均衡 # 网络性能优化 # Apache # 对象存储 # Spark # 混合部署 # 容器

aliyun4381607004

|

博文

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

本文以云厂商售后技术支持的角度，从客户的需求出发，对于阿里云EMR-Trino集群的选型，外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录，模拟客户已有的业务场景，满足客户需求的同时对过程中的问题点进行解决、记录和分析，包括但不限于Mysql、ODPS、Hive connector的配置，Hive、Delta及Hudi等不同表格式读取的兼容，aws s3、阿里云 oss协议访问异常的解决等。

# 对象存储 # 云数据库 RDS MySQL 版 # 开源大数据平台 E-MapReduce # 云服务器 ECS # SQL # 分布式计算 # 关系型数据库 # HIVE # 对象存储

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce