开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

# 开源大数据平台 E-MapReduce # 日志服务

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客（apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners），这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

# 开源大数据平台 E-MapReduce

学习让人充实

|

博文

|

来自：大数据与机器学习

玩转阿里云EMR三部曲-中级篇集成自有服务

玩转阿里云EMR三部曲-中级篇集成自有服务作者：邓力，entobit技术总监，八年大数据从业经历，由一代hadoop入坑，深耕云计算应用领域，由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域，对大数据生态及框架应用有深刻理解。

# 开源大数据平台 E-MapReduce # 对象存储 # 对象存储 # 分布式计算 # Spark # Java # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Spark

建站专业户

|

1月前

|

博文

|

来自：大数据与机器学习

如何建设网站，网站制作的6个步骤

本文围绕企业及单位网站建设展开，详解从域名注册、服务器租用、模板选取、备案，到 SEO 推广与长期维护的完整流程。强调模板等工具可降低建站门槛、缩短周期，建议优先选择源码可控、可扩展的建站平台，同时需注重备案合规、安全维护与用户体验，助力高效打造专业网站，为数字化业务拓展奠定基础。

# 开源大数据平台 E-MapReduce # 监控 # 安全 # 前端开发 # Linux # SEO

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 消息中间件 # 大数据 # 测试技术 # Kafka # Apache

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Koalas项目基于Apache Spark实现了pandas DataFrame API，从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试，小数据集)和Spark(用于分布式datasets)两个平台上运行。

# 开源大数据平台 E-MapReduce # Python # 分布式计算 # Spark # Apache # API

司麟嘟嘟嘟

|

博文

|

来自：大数据与机器学习

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct，用于统计非重复结果的近似值，支持。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

# 开源大数据平台 E-MapReduce # 流计算 # 分布式计算 # Spark # SQL

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

7月10日直播【E-MapReduce产品探秘，扩展开源生态云上的能力】

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce