大数据计算 MaxCompute-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 大数据计算 MaxCompute

大数据计算 MaxCompute

关注

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

0
今日
6651
内容
8
活动
348088
关注
|
5月前
|
存储 人工智能 分布式计算
|
置顶

【云栖2023】张治国:MaxCompute架构升级及开放性解读

本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会

60101 9
|
5月前
|
存储 分布式计算 运维
|
置顶

【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设

101432 7
|
3天前
|
分布式计算 数据挖掘 数据处理
|

基于 MaxCompute MaxFrame 实现分布式 Pandas 处理

阿里云分布式计算框架 MaxCompute MaxFrame 兼容 Pandas 接口且自动进行分布式处理,在保证强大数据处理能力的同时,可以大幅度提高数据处理规模及计算效率。

188 0
|
3天前
|
分布式计算 监控 调度
|

给技术新人的ODPS优化建议

数据开发基本都是从陌生到熟悉,但是写多了就会发现各种好用的工具/函数,也会发现各种坑,本文分享了作者从拿到数据到数据开发到数据监控的一些实操经验。

33 0
|
5天前
|
SQL 分布式计算 资源调度
|

一文解析 ODPS SQL 任务优化方法原理

本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。

41 0
|
9天前
|
API 开发者 Kotlin
|

Kotlin 中如何使用 Fuel 库进行代理切换?

Kotlin 中如何使用 Fuel 库进行代理切换?

202 0
|
10天前
|
算法 数据安全/隐私保护
|

常用的有限元网格生成方法

本文介绍了三种常见的有限元网格生成方法:映射法、四(八)叉树法和Delaunay三角化法。映射法通过坐标变换将物理域映射到规则参数域,适合生成结构化和非结构化网格,但处理复杂区域时较困难。四(八)叉树法基于栅格,通过递归细分逼近边界,适用于非结构化网格,但内部和边界网格的相容剖分较复杂。Delaunay三角化法通过保证外接圆特性生成高质量网格,适用于凸区域,但在凹区域需进行边界恢复。前沿推进法则从边界开始逐步向内生成网格,边界质量好,但数据结构设计和推进规则制定有一定挑战。这些方法各有优缺点,常结合使用以优化网格剖分。

227 1
|
11天前
|
分布式计算 容灾 大数据
|

MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云

一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。

449 3
|
12天前
|
分布式计算 容灾 大数据
|

MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云

一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。

207 0
|
16天前
|
存储 SQL 分布式计算
|

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景,提供近实时增全量一体的数据存储和计算(Transaction Table2.0)解决方案。

138720 1
|
25天前
|
机器学习/深度学习 分布式计算 数据挖掘
|

阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态

阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。

307 1
|
1月前
|
存储 BI 关系型数据库
|

数仓学习---数仓开发之DWS层

数仓学习---数仓开发之DWS层

354 4
|
1月前
|
分布式计算 大数据 Hadoop
|

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。

245 2
|
1月前
|
SQL 数据采集 存储
|

数据仓库(12)数据治理之数仓数据管理实践心得

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。

305 0
|
1月前
|
人工智能 算法 数据挖掘
|

python数据分析——数据分析人员的基本道德要求

数据分析人员的基本道德要求,首要之务是确保数据的真实性、完整性和准确性。在处理和分析数据时,必须坚守诚信原则,不篡改、不伪造、不隐瞒任何信息,以保证分析结果的可信度和有效性。 此外,尊重数据隐私和保密性也是不可或缺的道德标准。数据分析人员应当严格遵守相关法律法规,不得擅自泄露或滥用个人信息和敏感数据。在数据收集、存储、传输和使用过程中,必须采取必要的安全措施,确保数据的安全性和保密性。

132 0
|
1月前
|
SQL 存储 大数据
|

数据仓库(10)数仓拉链表开发实例

拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。

167 13
|
1月前
|
分布式计算 API Spark
|

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

66 11
|
1月前
|
存储 大数据 数据管理
|

数据仓库(09)数仓缓慢变化维度数据的处理

数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。

216 2
|
3月前
|
SQL 分布式计算 数据处理
|

如何充分发挥 SQL 能力

MaxCompute(ODPS)SQL 发展到今天已经颇为成熟,作为一种 SQL 方言,可以高效地应用在各种数据处理场景。本文尝试独辟蹊径,强调通过灵活的、发散性的数据处理思维,就可以用最基础的语法,解决复杂的数据场景。

162495 4
|
3月前
|
分布式计算 关系型数据库 MySQL
|

maxcompute迁移工具MMA使用操作手册

针对官方教程中省略和易出错的部分进行了补充,在使用过程中如果有更多问题,建议工单或者任务单咨询阿里云售后服务人员。

83 1
|
4月前
|
存储 分布式计算 大数据
|

首批!阿里云MaxCompute完成中国信通院基于无服务器架构大数据平台测试

近日,阿里云计算有限公司MaxCompute产品顺利完成中国信通院首批无服务器架构(Serverless)大数据平台测试。

223 0
|
4月前
|
分布式计算 项目管理 MaxCompute
|

MaxCompute元数据使用实践--数据权限统计

本文主要介绍通过元数据的相关权限的视图进行数据权限的统计。

101494 2
|
4月前
|
SQL 分布式计算 大数据
|

MaxCompute 重装上阵,Global Zorder

MaxCompute支持Global Zorder,使得整个表或者分区的数据在全局上能按照指定字段进行ZORDER排序,以便数据能有更好的聚集性。

522 0
|
5月前
|
SQL 分布式计算 数据可视化
|

基于MaxCompute Notebook一分钟快速制作热点事件动态视频

本文主要介绍基于MaxCompute Notebook快速制作热点事件动态视频的操作方法。

63944 2
|
5月前
|
SQL 分布式计算 MaxCompute
|

PyODPS实现MaxComputer表数据把控

该脚本的最初设计目标是根据ODPS表中的不同二级分区,统计每个字段的详细量级,以便为下游用户提供数据支持。这有助于对中台数据资产进行有效管理,并能够及时关注上游数据质量问题。

877 0
|
6月前
|
SQL 分布式计算 Java
|

阿里云MaxCompute-Hive UDF(Java)迁移上云实践

阿里云MaxCompute-Hive UDF(Java)迁移上云实践

829 0
|
6月前
|
SQL 分布式计算 DataWorks
|

MaxCompute元数据使用实践--作业统计

通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。

1207 0
|
7月前
|
SQL 存储 分布式计算
|

深入MaxCompute,人力家借助Information Schema合理治理费用

本文将为大家带来MaxCompute与人力家客户案例深度解读。

1117 1
|
7月前
|
SQL 分布式计算 资源调度
|

阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录

阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录

888 0
|
7月前
|
SQL 分布式计算 数据挖掘
|

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

本教程将指导开发者通过MaxCompute SQL分析,快速体验MaxCompute产品,完成开通、执行SQL语句查询数据。无需进行数据同步,可直接上手体验数据分析。

949 1
|
7月前
|
SQL 分布式计算 大数据
|

MaxCompute元数据使用实践 -- 数据下载审计

通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。

574 0
|
7月前
|
SQL 分布式计算 数据可视化
|

课时1:Github实时数据分析与可视化(二)

课时1:Github实时数据分析与可视化

130 0
|
7月前
|
数据可视化 关系型数据库 MySQL
|

课时1:Github实时数据分析与可视化

课时1:Github实时数据分析与可视化

223 0
|
7月前
|
SQL 分布式计算 监控
|

使用内置公开数据集快速体验MaxCompute

本教程会指导您基于MaxCompute提供的TPC-DS样例数据和GitHub公开事件样例数据,通过MaxCompute SQL分析,快速体验MaxCompute产品,完成开通、执行SQL语句查询数据。您无需进行数据同步,可直接上手体验数据分析。

282 1
|
7月前
|
SQL 存储 分布式计算
|

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。

222 0
|
7月前
|
SQL 存储 分布式计算
|

MaxCompute元数据使用实践--项目信息统计

MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。

491 0
|
7月前
|
存储 JSON 分布式计算
|

MaxCompute半结构化数据思考与创新

本文将介绍MaxCompute在半结构化数据方面的一些思考与创新,围绕半结构化数据简析、传统方案优劣对比、MaxCompute半结构化数据解决方案、收益分析。

352 11
|
8月前
|
分布式计算 运维 大数据
|

MaxCompute资源管理——使用成本优化功能实现包年包月计算资源降本增效

MaxCompute提供成本优化(计算资源优化推荐)功能,可基于实际作业请求量和资源配置期望,对包年包月一级Quota类型的计算资源生成更优的资源配置方案,帮助进一步提升计算资源利用率,优化计算成本。本文我们一起通过典型场景案例来看看如何通过成本优化(计算资源优化推荐)功能提供降本增效的参考建议。

208 0
|
8月前
|
分布式计算 数据挖掘 调度
|

阿里云 MaxCompute 2023-5~8 月刊

【MaxCompute已发布免费试用计划,为数仓建设提速】新用户可0元领取5000CU*小时计算资源与100GB存储,有效期3个月。

442 2
|
8月前
|
SQL 存储 分布式计算
|

【深入MaxCompute】人力家:用MaxCompute 事务表2.0主键模型去重数据持续降本增效

MaxCompute新增Transaction Table2.0(下文简称事务表2.0)表类型在2023年6月27日开始邀测,支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。

451 0
|
8月前
|
弹性计算 分布式计算 网络性能优化
|

【VLDB 2023】基于预测的云资源弹性伸缩框架MagicScaler,实现“高QoS,低成本”双丰收

近日,由阿里云计算平台大数据基础工程技术团队主导,与计算平台MaxCompute团队、华东师范大学数据科学与工程学院、达摩院合作,基于预测的云计算平台资源弹性伸缩框架论文《MagicScaler: Uncertainty-aware, Predictive Autoscaling 》被数据库领域顶会VLDB 2023接收。

517 5
|
8月前
|
弹性计算 分布式计算 大数据
|

阿里云计算平台大数据基础工程技术论文入选 VLDB 2023

近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track

408 0
|
8月前
|
SQL 分布式计算 大数据
|

MaxCompute ODPS重装上阵:PIVOT/UNPIVOT

MaxCompute推出新语法 - PIVOT/UNPIVOT:通过PIVOT关键字基于聚合将一个或者多个指定值的行转换为列;通过UNPIVOT关键字可将一个或者多个列转换为行。以更简洁易用的方式满足行转列和列转行的需求,简化了查询语句,提高了广大大数据开发者的生产力。

544 1
|
8月前
|
存储 SQL 分布式计算
|

MaxCompute发布按量付费闲时版,计算成本最高节省66.66%!

在大数据不断在追求计算效率和成本优化的背景下,阿里云云原生大数据计算服务 MaxCompute宣布推出按量付费闲时版,用户可选择用此版本完成时间不敏感的作业,从而降低计算成本,同等作业类型的计算费用与按量付费标准版相比,最高可实现66.66%的计算成本优化。

282 1
|
8月前
|
SQL 分布式计算 大数据
|

MaxCompute ODPS 重装上阵,QUALIFY

MaxCompute支持QUALIFY语法过滤Window函数的结果,使得查询语句更简洁易理解。Window函数和QUALIFY语法之间的关系可以类比聚合函数+GROUP BY语法和HAVING语法。

272 0
|
9月前
|
SQL 分布式计算 编译器
|

MaxCompute ODPS重装上阵, IF ELSE分支语句

MaxCompute通过脚本模式支持IF ELSE分支语句,让程序根据条件自动选择执行逻辑,支持更好的处理因数据不同而需要采用不同策略的业务场景产生的复杂SQL,提高开发者编程的灵活性!

631 2
|
9月前
|
数据采集 存储 消息中间件
|

《阿里大数据之路》读书笔记:总述

阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

473 0
|
9月前
|
人工智能 安全
|

复旦大学与阿里巴巴达成战略合作

复旦大学与阿里巴巴集团宣布双方达成全面战略合作,未来将在科研融合创新、科研合作、人才培养等领域展开深入合作,共同促进AI for Science从原始创新到应用落地的全链路发展。

246 2
|
10月前
|
存储 SQL 分布式计算
|

MaxCompute湖仓一体近实时增量处理技术架构揭秘

本文将介绍阿里云云原生大数据计算服务MaxCompute湖仓一体近实时增量处理技术架构的核心设计和应用场景。

9670 6
|
10月前
|
存储 SQL 分布式计算
|

Maxcompute拉链表应用(一)在数据开发中使用拉链表

最新在项目中进行存储优化的一个事情,于是就又把拉链表抬出来了。

7112 1
我要发布