开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 消息中间件 # 大数据 # 测试技术 # Kafka # Apache

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Koalas项目基于Apache Spark实现了pandas DataFrame API，从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试，小数据集)和Spark(用于分布式datasets)两个平台上运行。

# 开源大数据平台 E-MapReduce # Python # 分布式计算 # Spark # Apache # API

司麟嘟嘟嘟

|

博文

|

来自：大数据与机器学习

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct，用于统计非重复结果的近似值，支持。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

# 开源大数据平台 E-MapReduce # 流计算 # 分布式计算 # Spark # SQL

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

7月10日直播【E-MapReduce产品探秘，扩展开源生态云上的能力】

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute

开源大数据EMR

|

博文

|

来自：大数据与机器学习

E-MapReduce产品探秘，扩展开源生态云上的能力

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute

bean_stalk

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

云栖社区直播

|

博文

|

来自：大数据与机器学习

Delta元数据解析

本文介绍Delta的元数据管理相关内容，包括文件夹结构，元数据类型以及元数据产生流程等

# 开源大数据平台 E-MapReduce # 云解析DNS # 数据格式 # JSON # 流计算 # 存储 # 数据管理 # 分布式计算 # Spark # Apache # 大数据

hannahc001

|

博文

|

来自：大数据与机器学习

不是吧？这么好用的开源标注工具，竟然还有人不知道…

LabelU是一款专为AI项目设计的强大多模态数据标注工具，支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项，让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作，以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全，也提供在线版本方便快速上手。此外，OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具，进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情，并为这些优秀工具点赞支持！

# 开源大数据平台 E-MapReduce # 人工智能 # JSON # 算法 # 数据处理 # 数据格式

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 大数据 # 数据挖掘 # BI # 调度 # 对象存储 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce