开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

本文中，我们将介绍 Spark 的一个新的数据源，Spark-TFRecord。Spark-TFRecord 的目的是提供在Spark中对原生的 TensorFlow 格式进行完全支持。本项目的目的是将 TFRecord 作为Spark数据源社区中的第一等公民，类似于 Avro，JSON,Parquet等。Spark-TFRecord 不仅仅提供简单的功能支持，比如 Data Frame的读取、写入，还支持一些高阶功能，比如ParititonBy。使用 Spark-TFRecord 将会使数据处理流程与训练工程完美结合。

# 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # TensorFlow # 数据处理 # Apache # 算法框架/工具 # 数据库 # Spark # 数据格式

灵杰开发者

|

电子书

|

来自：大数据与机器学习

大数据&AI实战派第2期

《大数据&AI实战派》系列电子书由阿里云开发者社区与阿里灵杰共同打造，覆盖数据计算、数据分析、数据湖/湖仓一体、机器学习等多个领域，解读各技术领域基础原理，剖析行业实践案例，培养大数据开发者从“生产-采集-存储-分析-开发-治理-价值体现”的技术能力。

# 云原生大数据计算服务 MaxCompute # 实时计算 Flink版 # 开源大数据平台 E-MapReduce # 检索分析服务 Elasticsearch版 # 智能开放搜索 OpenSearch # 实时数仓 Hologres # 智能推荐 AIRec # 大数据开发治理平台 DataWorks # API # 数据采集 # 数据处理 # 数据管理 # 流计算 # 云计算 # OLAP # 索引 # 大数据 # 人工智能 # 机器学习/深度学习

爱吃鱼的程序员

|

问答

|

来自：大数据与机器学习

NeuSoft是什么？

# 开源大数据平台 E-MapReduce

阿里云大数据Al技术

|

博文

|

来自：大数据与机器学习

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

本文整理自阿里云 EMR 数据开发团队负责人孙一凡（Evans 忆梵），在 Apache Spark & DS Meetup 的分享

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Cloud Native # 数据可视化 # IDE # 大数据 # 测试技术 # 调度 # 开发工具 # Spark

时不我与爱铭

|

博文

|

来自：大数据与机器学习

深度分析：Apache Kafka及其在大数据处理中的应用

Apache Kafka是高吞吐、低延迟的分布式流处理平台，常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ（吞吐量有限）、Pulsar（多租户支持但生态系统小）和Amazon Kinesis（托管服务，成本高）对比，Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素，使用时注意资源配置、数据管理、监控及安全性。

# 云消息队列 Kafka 版 # 日志服务 # 云消息队列 MQ # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 消息中间件 # 存储 # 大数据 # Kafka # Apache

扬流

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

# 云原生数据仓库AnalyticDB MySQL版 # 数据管理 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Serverless # 调度 # Spark

阿里云E-MapReduce团队

|

博文