开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

# 开源大数据平台 E-MapReduce # 日志服务

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

# 开源大数据平台 E-MapReduce # 存储 # SQL # 分布式计算 # Spark # 测试技术

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

# 开源大数据平台 E-MapReduce

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark # 存储 # 缓存 # SQL # 数据挖掘 # 对象存储 # 数据库 # 索引 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

# 开源大数据平台 E-MapReduce # 流计算 # 分布式计算 # Spark # SQL

云栖社区直播

|

博文

|

来自：大数据与机器学习

Delta元数据解析

本文介绍Delta的元数据管理相关内容，包括文件夹结构，元数据类型以及元数据产生流程等

# 开源大数据平台 E-MapReduce # 云解析DNS # 数据格式 # JSON # 流计算 # 存储 # 数据管理 # 分布式计算 # Spark # Apache # 大数据

墨祤

|

11天前

|

博文

|

来自：大数据与机器学习

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台，致力于通过埋点、采集、计算构建流量数据闭环，助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战，平台采用Flink+Paimon+StarRocks技术方案，实现高吞吐写入与秒级查询，优化存储成本与扩展性，提升日志分析效率。

# 日志服务 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # Apache # 流计算 # 索引

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # Hadoop # 数据管理 # API # Apache # HIVE # Spark # 流计算

CiiLii西里网

|

博文

|

来自：大数据与机器学习

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型，预训练于多样化数据集，支持18亿至720亿参数规模。在多模态英文任务中表现出色，且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互，提供智能体验。然而，模型在逻辑题和指令理解上存在不足，需在特定领域进行优化。

# 开源大数据平台 E-MapReduce # 自然语言处理 # 搜索推荐 # 机器人

扬流

|

博文

|

来自：大数据与机器学习

EMR StarRocks 测试指南

日前，阿里云 E-MapReduce 与 StarRocks 社区合作，推出了首款 StarRocks 云上产品。同时，面向新老用户提供了99元指定机型（ecs.c6.xlarge）首月试用的优惠活动，欢迎感兴趣的用户前来测试。

# 开源大数据平台 E-MapReduce # 专有网络VPC # 云服务器 ECS # 弹性计算 # 数据挖掘 # 网络安全

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce