开源大数据平台 E-MapReduce的搜索结果_热门

墨祤

|

11天前

|

博文

|

A+流量分析平台是阿里集团统一的全域流量数据分析平台，致力于通过埋点、采集、计算构建流量数据闭环，助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战，平台采用Flink+Paimon+StarRocks技术方案，实现高吞吐写入与秒级查询，优化存储成本与扩展性，提升日志分析效率。

# 日志服务 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # Apache # 流计算 # 索引

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # Hadoop # 数据管理 # API # Apache # HIVE # Spark # 流计算

CiiLii西里网

|

博文

|

来自：大数据与机器学习

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型，预训练于多样化数据集，支持18亿至720亿参数规模。在多模态英文任务中表现出色，且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互，提供智能体验。然而，模型在逻辑题和指令理解上存在不足，需在特定领域进行优化。

# 开源大数据平台 E-MapReduce # 自然语言处理 # 搜索推荐 # 机器人

扬流

|

博文

|

来自：大数据与机器学习

EMR StarRocks 测试指南

日前，阿里云 E-MapReduce 与 StarRocks 社区合作，推出了首款 StarRocks 云上产品。同时，面向新老用户提供了99元指定机型（ecs.c6.xlarge）首月试用的优惠活动，欢迎感兴趣的用户前来测试。

# 开源大数据平台 E-MapReduce # 专有网络VPC # 云服务器 ECS # 弹性计算 # 数据挖掘 # 网络安全

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务，提供高性能、全场景、极速统一的数据分析体验，具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks，性能比传统 OLAP 引擎提升 3-5 倍，助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。

# 实时计算 Flink版 # 函数计算 # 开源大数据平台 E-MapReduce # 云原生数据仓库AnalyticDB MySQL版 # SQL # 运维 # Serverless # OLAP # BI

hannahc001

|

博文

|

来自：大数据与机器学习

不是吧？这么好用的开源标注工具，竟然还有人不知道…

LabelU是一款专为AI项目设计的强大多模态数据标注工具，支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项，让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作，以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全，也提供在线版本方便快速上手。此外，OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具，进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情，并为这些优秀工具点赞支持！

# 开源大数据平台 E-MapReduce # 人工智能 # JSON # 算法 # 数据处理 # 数据格式

墨祤

|

11天前

|

博文

|

来自：大数据与机器学习

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构，支持实时湖仓分析，适用于多种 OLAP 场景。结合 Paimon 与 Flink，助力企业高效处理海量数据，广泛应用于游戏、教育、生活服务等领域，显著提升数据分析效率与业务响应速度。

# 函数计算 # 开源大数据平台 E-MapReduce # DataWorks # 数据挖掘 # Serverless # OLAP # 流计算

扬流

|

博文

|

来自：大数据与机器学习

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

# 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 大数据 # Spark # Apache

阿里云大数据

|

5月前

|

博文

|

来自：大数据与机器学习

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求，采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升，支持业务快速发展、计算效率提升，增强SLA保障，稳定性提升，降低运维成本，并支撑全球化数据架构部署。

# 函数计算 # 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Serverless # 调度 # Spark

扬流

|

博文

|

来自：大数据与机器学习

数据湖架构及概念简介

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

# 开源大数据平台 E-MapReduce # 数据湖构建 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # SQL # 分布式计算 # Cloud Native # Hadoop # 大数据 # 对象存储 # HIVE # Spark # 流计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce