开发者社区> 大数据与机器学习> 大数据计算 MaxCompute

大数据计算 MaxCompute

关注

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

0
今日
8233
内容
9
活动
348170
关注
|
4月前
|
人工智能 分布式计算 大数据
|
置顶

云栖实录 | MaxCompute 迈向下一代的智能云数仓

2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。

541 0
|
存储 分布式计算 运维
|
置顶

【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设

102338 15
|
存储 人工智能 分布式计算
|
置顶

【云栖2023】张治国:MaxCompute架构升级及开放性解读

本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会

61057 16
|
SQL 分布式计算 大数据
|
置顶

MaxCompute元数据使用实践 -- 数据下载审计

通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。

831 0
|
SQL 存储 分布式计算
|
置顶

MaxCompute元数据使用实践--项目信息统计

MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。

922 0
|
分布式计算 运维 大数据
|
置顶

MaxCompute资源管理——使用成本优化功能实现包年包月计算资源降本增效

MaxCompute提供成本优化(计算资源优化推荐)功能,可基于实际作业请求量和资源配置期望,对包年包月一级Quota类型的计算资源生成更优的资源配置方案,帮助进一步提升计算资源利用率,优化计算成本。本文我们一起通过典型场景案例来看看如何通过成本优化(计算资源优化推荐)功能提供降本增效的参考建议。

703 0
|
存储 SQL 分布式计算
|
置顶

MaxCompute发布按量付费闲时版,计算成本最高节省66.66%!

在大数据不断在追求计算效率和成本优化的背景下,阿里云云原生大数据计算服务 MaxCompute宣布推出按量付费闲时版,用户可选择用此版本完成时间不敏感的作业,从而降低计算成本,同等作业类型的计算费用与按量付费标准版相比,最高可实现66.66%的计算成本优化。

433 1
|
人工智能 分布式计算 Cloud Native
|
置顶

《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!

离线实时一体、分析服务一体、湖仓一体、数据安全、数据建模、数据治理,六大热门主题,六位大数据专家,带你了解当前炙手可热的云数仓产品最新演进趋势。

1790 0
|
人工智能 分布式计算 Cloud Native
|
置顶

IDC:阿里云稳居中国大数据平台公有云市场第一位

8月4日消息,日前国际权威研究机构IDC发布了《中国大数据平台公有云服务市场份额概况,2021》,报告显示,阿里云稳居中国大数据平台公有云服务市场第一位,营收达14.9亿元。

2200 1
|
存储 分布式计算 DataWorks
|
置顶

阿里云云原生一体化数仓 — 数据治理新能力解读

本文介绍大数据开发治理平台DataWorks在数据治理领域的最新产品进展,包括基于事前、事中、事后的全链路理念构建的核心产品功能和数据治理量化评估机制解读,以及围绕降本增效的成本治理最佳实践。

3378 0
|
存储 SQL 分布式计算
|
置顶

阿里云云原生一体化数仓 — 湖仓一体新能力解读

本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。

3056 1
|
存储 SQL 自然语言处理
|
置顶

阿里云云原生一体化数仓 — 数据建模新能力解读

本文主要介绍DataWorks智能数据建模的核心产品能力。

1538 0
|
存储 SQL JSON
|
置顶

阿里云云原生一体化数仓 — 分析服务一体化新能力解读

本文主要介绍如何通过Hologres在分析和服务场景下的新功能,包括资源隔离,数据湖(Delta、Hudi)的支持、JSON优化支持等。

1120 0
|
存储 人工智能 分布式计算
|
置顶

阿里云云原生一体化数仓 — 离线实时一体化新能力解读

介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现方案,通过用实时的引擎做预处理,实现离线实时数据入仓后做更加实时的服务化BI分析实践。

2530 1
|
分布式计算 DataWorks Cloud Native
|
置顶

阿里云云原生一体化数仓入选 2022数博会“十佳大数据案例”

2022年5月26日,中国国际大数据产业博览会(以下简称“数博会”)在贵阳召开,数博会“十佳大数据案例”揭晓,阿里云云原生一体化数仓入选。阿里云云原生一体化数仓可以解决企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理,通过精简的架构,支撑分析决策、异构大数据平台之上的全域数据分析需求。

1228 0
|
人工智能 Cloud Native 大数据
|
置顶

“后红海”时代, 阿里资深技术专家揭秘当下大数据体系

任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从 “戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面 20 年中,大数据技术也经 历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠 的技术。

17917 0
|
存储 人工智能 分布式计算
|
置顶

《SaaS模式云原生数据仓库应用场景实践》电子书重磅来袭! 激活数据生产力,让分析产生价值!

在数据成为生产要素的今天,拥有充沛的算力是全面发掘和释放数据价值的先决条件。

30279 0
|
机器学习/深度学习 存储 分布式计算
|
置顶

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。

3599 0
|
分布式计算 安全 大数据
|
置顶

阿里云MaxCompute为坚韧性系统 — 中国信通院完成首个面向大数据技术产品的混沌测试

随着 2021 年《关键信息基础设施安全保护条例》出台,稳定性已成为各领域客户在功能、性能之外,对大数据技术产品能力评价的重要指标。阿里云MaxCompute大数据平台在13轮不同程度的破坏性测试中,性能水平并未明显下降,被证明为韧性型系统。

1197 0
|
分布式计算 DataWorks Cloud Native
|
置顶

阿里云云原生一体化数仓正式发布  助力企业数据驱动业务创新

云原生一体化数仓是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。核心是3个一体化和全链路数据治理能力,包括离线实时一体、湖仓一体、分析服务一体、全链路数据治理。

2457 6
|
存储 运维 分布式计算
|
置顶

云原生离线实时一体化数仓建设与实践

本篇内容分享了云原生离线实时一体化数仓建设与实践。 分享人:刘一鸣 Hologres 产品经理

1774 1
|
存储 机器学习/深度学习 SQL
|
置顶

MaxCompute湖仓一体介绍

本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家

1773 0
|
数据采集 分布式计算 DataWorks
|
置顶

阿里云云原生一体化数仓发布

高雪峰 阿里云计算平台产品与解决方案总经理

1812 0
|
SQL 分布式计算 资源调度
|
置顶

外部工具连接SaaS模式云数仓MaxCompute 实战—— 数据库管理工具篇

本次直播将主要分享MaxCompute查询加速功能、数据库管理工具DBeaver、DataGrip、SQL Workbench/J的部分连接演示。

1412 0
|
SQL 分布式计算 数据可视化
|
置顶

外部工具连接SaaS模式云数据仓库MaxCompute实战——BI分析工具篇

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据开发者经济并高效的分析处理海量数据。

1827 1
|
SQL 资源调度 分布式计算
|
置顶

MaxCompute中如何通过logview诊断慢作业

MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因

4860 0
|
SQL 分布式计算 Java
|
置顶

UDF精简使用大全

在MaxCompute开发过程中,开发同学遇到的的一些复杂逻辑该如何处理,如何在MaxCompute开发不同场景下的UDF函数?带着这个问题,本文针对UDF的各方面内容做出介绍,其中涉及UDF对应不同语言的类型映射关系、以及对应UDF在重载、访问网络、引用表与资源、以及第三方包的使用为大家做出展示。

6183 0
|
存储 SQL 分布式计算
|
置顶

如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。

1885 0
|
SQL 分布式计算 运维
|
置顶

MaxCompute作业日常监控与运维实践

MaxCompute作业日常监控与运维实践

1784 0
|
SQL 存储 分布式计算
|
置顶

MaxCompute产品消费相关文章合集

MaxCompute (原odps)是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入。MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。

814 0
|
分布式计算 DataWorks 网络协议
|
置顶

MaxCompute中实现IPv4和IPv6地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能。其中把IP地址转换为归属地又是极为常见的一种场景。本文将介绍在MaxCompute如何根据IPv4和IPv6地址实现归属地转换。

3864 0
|
机器学习/深度学习 人工智能 分布式计算
|
置顶

开放下载!《SaaS模式云数据仓库实践手册》

本书的制作目的在于让MaxCompute帮助企业构建全托管的现代化数仓,简化数据洞察、加速价值实现。

44075 0
|
存储 机器学习/深度学习 分布式计算
|
置顶

持续定义Saas模式云数据仓库+实时搜索

本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义Saas模式云数据仓库+实时搜索》的相关分享。以下是视频内容精华整理,主要包括以下三个部分:1.Why:概述与价值;2.What:应用场景;3.How:最佳实践。

20480 0
|
机器学习/深度学习 SQL 人工智能
|
置顶

持续定义SaaS模式云数据仓库+AI

本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义SaaS模式云数据仓库+AI》的相关分享。

11661 0
|
存储 机器学习/深度学习 分布式计算
|
置顶

持续定义SaaS模式云数据仓库+Serverless

本文将为您介绍现代云数据仓库的业务场景与资源使用需求,不同资源交付模式的差异化分析。并结合MaxCompute Serverless的特点及价值来讲解使用MaxCompute Serverless的最佳实践。

11025 0
|
存储 数据采集 分布式计算
|
置顶

持续定义SaaS模式云数据仓库+数据银行

本文将介绍SaaS模式云数据仓库MaxCompute,如何助力数据银行SaaS模式云战略和一体化数据开放场景介绍。

10045 0
|
新零售 分布式计算 DataWorks
|
置顶

持续定义Saas模式云数据仓库+BI

简介:阿里云技术专家海清为大家带来持续定义Saas模式云数据仓库+BI的介绍。内容包括云数据仓库概述,BI使用场景与趋势,基于MaxCompute云数仓+BI的特性,以及实践案例。

7089 0
|
分布式计算 监控 算法
|
置顶

MaxCompute资源管理—— 包年包月资源组隔离

使用基于MaxCompute云数据仓库的企业,由于业务的差异,会创建多project进行数据隔离。同时也因为业务的差异,每个project需要跑的任务量、业务紧急程度等也有差异,因此不同project对计算资源的需求也不一致。本文我们一起探讨如何通过MaxCompute管家实现MaxCompute包年包月的资源隔离。

1726 0
|
存储 分布式计算 安全
|
置顶

SaaS 模式云数据仓库 MaxCompute 数据安全最佳实践

MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,本文将针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,结合数据生命周期,为您介绍基 于MaxCompute 和 DataWorks 原生集成安全能力的最佳实践。

1183 0
|
分布式计算 DataWorks 调度
|
置顶

MaxCompute资源管理—— 包年包月资源分时

2020年7月23日开始,MaxCompute 管家陆续对各个区域进行升级新版本,新版本支持的功能之一——分时配额,将支持对预留计算资源(预留CU)进行按时段切分,满足时段的差异化资源需求,满足对资源隔离(生产/开发/自助分析)不同工作负载的能力,避免相互干扰,同时更大化提高资源使用率。

1901 0
|
2天前
|
安全
|

静态代理IP对网站性能的影响分析

在信息化时代,网络不可或缺。静态代理IP通过增强网络稳定性、确保连接可靠性和提高用户工作效率,显著提升网站访问速度和性能。91HTTP作为高质量代理IP服务商,提供更快的代理连接速度,助力用户高效获取信息。

22 3
|
3天前
|
分布式计算 Spark
|

【赵渝强老师】Spark的容错机制:检查点

Spark通过Checkpoint机制将RDD状态持久化到磁盘,以支持容错。当任务执行出错时,可以从检查点位置重新计算,减少开销。Checkpoint目录可设置为本地文件夹或HDFS。建议生产系统使用高可靠的文件系统保存检查点。文中详细介绍了在本地和HDFS上设置检查点目录的步骤,并附有代码示例和视频讲解。

27 7
|
4天前
|
安全 网络安全 UED
|

为何长效代理静态IP是网络管理的关键要素

在信息化时代,静态长效IP代理对网络管理至关重要。它能提升网络服务质量,确保远程办公、视频会议等应用的稳定性和连续性;减少延迟和网络拥堵,加快数据传输;提高网络安全,便于设置访问权限,防止未授权访问。91HTTP高质量代理IP服务商助力高效信息获取。

39 23
|
5天前
|
Web App开发 缓存 负载均衡
|

为什么要在网络设置静态代理ip?

随着科技和互联网的发展,越来越多企业需要使用代理服务器。设置静态代理IP可提高安全性、保护用户IP地址,实现地域性访问、缓存加速及负载均衡等优势。具体配置方法包括在Windows、macOS操作系统或浏览器中进行网络设置,输入代理服务器的地址和端口。通过合理设置代理IP,用户能更好地管理网络流量,提升隐私与性能。

60 36
|
6天前
|
机器学习/深度学习 算法 数据挖掘
|

解析静态代理IP改善游戏体验的原理

静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。

52 22
|
9天前
|
数据采集 搜索推荐 定位技术
|

网站服务器管理中静态长效代理的价值与作用

在网站服务器管理中,使用静态长效代理具有多重优势。其稳定性与持久性确保长时间稳定运行,简化网络管理,减少配置更改;能访问受限资源,提升工作效率,增强安全性与信息保护,优化网络营销策略,如SEO和关键词排名监测。静态代理是现代网络管理不可或缺的工具。

21 0
|
11天前
|
网络安全 数据安全/隐私保护 网络架构
|

为何使用长效静态IP会出现高延迟现象?

在使用长效静态IP时,出现高延迟的原因主要包括:1. 网络距离远、网络拥堵和网络质量差等环境因素;2. 服务器负载高、性能低等服务器相关问题;3. 代理协议加密、网络配置不当等配置因素;4. 目标服务器响应慢。这些因素都会影响数据传输速度,导致延迟增加。希望以上分析能帮助解决您的问题。

36 8
|
14天前
|
分布式计算 Spark
|

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用,如map、filter操作;宽依赖则指父RDD的每个分区被多个子RDD分区使用,如分组和某些join操作。窄依赖任务可在同一阶段完成,而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

56 15
|
20天前
|
缓存 分布式计算 资源调度
|

Spark 与 MapReduce 的 Shuffle 的区别?

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型,中间数据写入磁盘,I/O 开销大;而 Spark 使用基于内存的多阶段执行模型,支持操作合并和内存缓存,减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数,提升了性能。此外,Spark 通过 lineage 实现容错,资源管理更灵活,整体大数据处理效率更高。

47 6
我要发布