大数据计算 MaxCompute-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 大数据计算 MaxCompute
大数据计算 MaxCompute
关注
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
0
今日
5391
内容
8
活动
348013
关注
|
1月前
|
存储 人工智能 分布式计算
|
置顶
【云栖2023】张治国:MaxCompute架构升级及开放性解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会
59458 8
|
26天前
|
存储 分布式计算 运维
|
置顶
【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布
本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设
100966 6
|
10天前
|
SQL 分布式计算 大数据
|
MaxCompute - 重装上阵 - 第十三弹 Global Zorder
MaxCompute支持Global Zorder,使得整个表或者分区的数据在全局上能按照指定字段进行ZORDER排序,以便数据能有更好的聚集性。
336 0
|
27天前
|
SQL 分布式计算 数据可视化
|
【高阶】基于MaxCompute Notebook一分钟快速制作热点事件动态视频
基于MaxCompute提供的公共数据集数据(Github数据集、世界、中国各省GDP数据集)或自身业务数据,通过MaxCompute Notebook内置丰富的可视化扩展库(pyplot、pyecharts、Matplotlib等),将数据分析结果生成炫酷的动态分析视频。
63619 1
|
1月前
|
SQL 分布式计算 MaxCompute
|
PyODPS实现MaxComputer表数据把控
该脚本的最初设计目标是根据ODPS表中的不同二级分区,统计每个字段的详细量级,以便为下游用户提供数据支持。这有助于对中台数据资产进行有效管理,并能够及时关注上游数据质量问题。
687 0
|
2月前
|
SQL 分布式计算 Java
|
阿里云MaxCompute-Hive UDF(Java)迁移上云实践
阿里云MaxCompute-Hive UDF(Java)迁移上云实践
690 0
|
2月前
|
SQL 分布式计算 DataWorks
|
MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
754 0
|
3月前
|
SQL 存储 分布式计算
|
【深入MaxCompute】人力家:借助Information Schema合理治理费用
人力家是由阿里钉钉和人力窝共同投资成立,帮助客户进入人力资源数字化,依靠产品技术创新驱动战略的互联网公司。本文将为大家带来MaxCompute与人力家客户案例深度解读。
905 1
|
3月前
|
SQL 分布式计算 资源调度
|
阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录
阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录
729 0
|
3月前
|
SQL 分布式计算 数据挖掘
|
玩转MaxCompute SQL! 30分钟搞定数据分析挖掘
本教程将指导开发者通过MaxCompute SQL分析,快速体验MaxCompute产品,完成开通、执行SQL语句查询数据。无需进行数据同步,可直接上手体验数据分析。
743 1
|
3月前
|
SQL 分布式计算 大数据
|
MaxCompute元数据使用实践 -- 数据下载审计
通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。
299 0
|
3月前
|
SQL 分布式计算 数据可视化
|
课时1:Github实时数据分析与可视化(二)
课时1:Github实时数据分析与可视化
81 0
|
3月前
|
数据可视化 关系型数据库 MySQL
|
课时1:Github实时数据分析与可视化
课时1:Github实时数据分析与可视化
123 0
|
3月前
|
SQL 分布式计算 监控
|
使用内置公开数据集快速体验MaxCompute
本教程会指导您基于MaxCompute提供的TPC-DS样例数据和GitHub公开事件样例数据,通过MaxCompute SQL分析,快速体验MaxCompute产品,完成开通、执行SQL语句查询数据。您无需进行数据同步,可直接上手体验数据分析。
207 1
|
3月前
|
SQL 存储 分布式计算
|
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
123 0
|
3月前
|
SQL 存储 分布式计算
|
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
100 0
|
3月前
|
存储 JSON 分布式计算
|
MaxCompute半结构化数据思考与创新
本文将介绍MaxCompute在半结构化数据方面的一些思考与创新,介绍会围绕下面四点展开: 1.半结构化数据简析 2.传统方案优劣对比 3.MaxCompute半结构化数据解决方案 4.收益分析
242 11
|
4月前
|
分布式计算 运维 大数据
|
MaxCompute资源管理——使用成本优化功能实现包年包月计算资源降本增效
MaxCompute提供成本优化(计算资源优化推荐)功能,可基于实际作业请求量和资源配置期望,对包年包月一级Quota类型的计算资源生成更优的资源配置方案,帮助进一步提升计算资源利用率,优化计算成本。本文我们一起通过典型场景案例来看看如何通过成本优化(计算资源优化推荐)功能提供降本增效的参考建议。
163 0
|
4月前
|
分布式计算 数据挖掘 调度
|
阿里云 MaxCompute 2023-5~8 月刊
【MaxCompute已发布免费试用计划,为数仓建设提速】新用户可0元领取5000CU*小时计算资源与100GB存储,有效期3个月。
282 2
|
4月前
|
SQL 存储 分布式计算
|
【深入MaxCompute】人力家:用MaxCompute 事务表2.0主键模型去重数据持续降本增效
MaxCompute新增Transaction Table2.0(下文简称事务表2.0)表类型在2023年6月27日开始邀测,支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。
339 0
|
4月前
|
弹性计算 分布式计算 网络性能优化
|
【VLDB 2023】基于预测的云资源弹性伸缩框架MagicScaler,实现“高QoS,低成本”双丰收
近日,由阿里云计算平台大数据基础工程技术团队主导,与计算平台MaxCompute团队、华东师范大学数据科学与工程学院、达摩院合作,基于预测的云计算平台资源弹性伸缩框架论文《MagicScaler: Uncertainty-aware, Predictive Autoscaling 》被数据库领域顶会VLDB 2023接收。
424 5
|
4月前
|
弹性计算 分布式计算 大数据
|
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
293 0
|
4月前
|
SQL 分布式计算 大数据
|
MaxCompute - ODPS重装上阵 第十二弹 - PIVOT/UNPIVOT
MaxCompute推出新语法 - PIVOT/UNPIVOT:通过PIVOT关键字基于聚合将一个或者多个指定值的行转换为列;通过UNPIVOT关键字可将一个或者多个列转换为行。以更简洁易用的方式满足行转列和列转行的需求,简化了查询语句,提高了广大大数据开发者的生产力。
380 1
|
4月前
|
存储 SQL 分布式计算
|
MaxCompute发布按量付费闲时版,计算成本最高节省66.66%!
在大数据不断在追求计算效率和成本优化的背景下,阿里云云原生大数据计算服务 MaxCompute宣布推出按量付费闲时版,用户可选择用此版本完成时间不敏感的作业,从而降低计算成本,同等作业类型的计算费用与按量付费标准版相比,最高可实现66.66%的计算成本优化。
247 1
|
4月前
|
SQL 分布式计算 大数据
|
MaxCompute - ODPS重装上阵 第十一弹 -QUALIFY
MaxCompute支持QUALIFY语法过滤Window函数的结果,使得查询语句更简洁易理解。Window函数和QUALIFY语法之间的关系可以类比聚合函数+GROUP BY语法和HAVING语法。
155 0
|
5月前
|
SQL 分布式计算 编译器
|
MaxCompute - ODPS重装上阵 第十弹 -IF ELSE分支语句
MaxCompute通过脚本模式支持IF ELSE分支语句,让程序根据条件自动选择执行逻辑,支持更好的处理因数据不同而需要采用不同策略的业务场景产生的复杂SQL,提高开发者编程的灵活性!
431 2
|
5月前
|
数据采集 存储 消息中间件
|
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
274 0
|
5月前
|
人工智能 安全
|
复旦大学与阿里巴巴达成战略合作
复旦大学与阿里巴巴集团宣布双方达成全面战略合作,未来将在科研融合创新、科研合作、人才培养等领域展开深入合作,共同促进AI for Science从原始创新到应用落地的全链路发展。
193 2
|
6月前
|
存储 SQL 分布式计算
|
MaxCompute湖仓一体近实时增量处理技术架构揭秘
本文将介绍阿里云云原生大数据计算服务MaxCompute湖仓一体近实时增量处理技术架构的核心设计和应用场景
9253 6
|
6月前
|
存储 SQL 分布式计算
|
Maxcompute拉链表应用(一)在数据开发中使用拉链表
最新在项目中进行存储优化的一个事情,于是就又把拉链表抬出来了。
6937 0
|
6月前
|
SQL 存储 分布式计算
|
数仓架构“瘦身”,Hologres 5000CU时免费试用
Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的离线实时一体化分析能力。
198 0
|
7月前
|
存储 SQL 分布式计算
|
MaxCompute 物化视图智能推荐最佳实践
MaxCompute 发布 “物化视图智能推荐”,CU算力节省14%
12667 0
|
7月前
|
存储 SQL 分布式计算
|
MaxCompute 发布“物化视图智能推荐”,CU算力节省14%
物化视图智能推荐支持自动对用户历史作业进行分析,自动识别周期性作业,智能提取作业集合中的公共计算逻辑作为物化视图计算逻辑,最终转换为对用户友好的SQL文本形式,按照推荐程度排序展示给用户,并支持将物化视图使用效果可视化展现。
1635 0
|
7月前
|
大数据 数据挖掘 测试技术
|
数据项目交付小记:测试报告&公共层&中台组织
最近项目交付上遇到了一些问题,我把自己的回答和想法记录一下,分享给大家。
17138 1
|
7月前
|
存储 SQL 分布式计算
|
HashTable 在蚂蚁转化归因中的极致运用
建议阅读者:MaxCompute 开发及使用者。希望对hash cluster表运用及Shuffle过程原理感兴趣的开发者能够通过本文有所收获。
11187 0
|
7月前
|
SQL JSON 分布式计算
|
Maxcompute数据上云一致性比对
当把数据集成到Maxcompute上后,用户其实最关心的一个技术问题就是集成数据是否与源端一致,本文中介绍的一致性方案比对方案是基于阿里云多个大数据项目实际项目交付实践总结。
754 0
|
8月前
|
数据采集 存储 人工智能
|
Maxcomputer表判定联系方式是否是正常的联系方式的两个方式
在数据预处理的过程中,手机号作为联系方式的一种重要形式,经常需要进行格式验证和去重等操作。然而,在实际应用中,我们常常遇到手机号格式不统一、线上业务还好点,但是有部分线下的业务手机号是手工录入的数据等问题。这些问题导致正则清洗的工作量很大,而且容易出现错误,影响数据的质量。为了解决这些问题,本文提出了一些可能的优化方案,希望能够为数据预处理工作提供一些参考。
209 0
|
8月前
|
SQL 数据采集 分布式计算
|
如何学习大数据计算maxcompute
学习大数据计算maxcompute需要掌握步骤
269 0
|
8月前
|
存储 分布式计算 运维
|
阿里云 MaxCompute 2023-1~4 月刊
MaxCompute 发布新人特惠免费试用规格,5000CU*H计算资源和100GB存储,3个月免费用,让您0元体验MaxCompute 强劲的产品力。
917 0
|
9月前
|
运维 达摩院 Kubernetes
|
SREWorks数智运维平台开源一周年 | 智能运维aiops的回顾与展望
开源的这一年,我们聊一聊。
667 0
|
9月前
|
存储 分布式计算 MaxCompute
|
MaxCompute 包年包月套餐与非预留计算资源将于北京时间2023年4月30日00:00:00停止续订
若您当前保有MaxCompute包年包月“特价套餐”(含“存储密集型160特价套餐”、“存储密集型320特价套餐”、“存储密集型600特价套餐”)或包年包月“非预留计算资源”,请您详细阅读本文。
315 0
|
9月前
|
SQL 分布式计算 运维
|
【MaxCompute】基于Package跨项目访问资源实践
目前随着公司业务的不断扩展,各个业务线的数据也越来越多,如果所有数据都集中管理比较错综复杂。MaxCompute的跨项目访问资源比较适合这样的场景。每个业务线创建对应的project,自行管理数据。如果有需要访问其他业务线数据的诉求,可以基于Package实现数据共享的诉求,下面我们来介绍下基于Package实现跨项目访问资源的具体操作,本文以共享自建udf函数为例。
331 0
|
10月前
|
SQL 数据采集 分布式计算
|
MaxCompute中如何处理异常字符
在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。这种情况,通常我们的解法是,将异常的字符洗掉,下面来介绍几种常见的处理异常字符的方法。
604 0
|
10月前
|
存储 XML JSON
|
如何选择离线数据集成方案-全量&增量
如何选择数据离线集成方式,哪些表适合全量集成,哪些表适合增量集成
573 0
|
11月前
|
SQL 存储 运维
|
如何选择数据集成方式-离线&实时
如何在项目交付过程中合理经济的选择数据集成方案
921 1
|
11月前
|
SQL 分布式计算 关系型数据库
|
来自DBMS大牛分享 - MapReduce: 一个巨大的倒退
前言 2011年历史的大数据&数据库论 databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章,引发剧烈的讨论。我抽空在这儿翻译一些,一起学习。 译者注:这种 Tanenbaum vs. Linus 式的讨论自然会导致非常热烈的争辩。但是老实说,从 Tanenbaum vs. Linus 的辩论历史发展来看,Linux是越来越多地学习并以不同方式应用了 Tanenbaum 等 OS 研究者的经验(而不是背弃); 所以 MapReduce vs. DBMS
284 0
|
11月前
|
DataWorks
|
维度建模实践一例 (一) 维度还是事实
成本和单价是产品的维度还是事实表中的事实?来看看我对这个问题的思考与分享吧。
398 0
|
11月前
|
机器学习/深度学习 人工智能 Cloud Native
|
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
IDC认为,从提升企业中长期发展质量、降低综合投入成本的角度出发,大数据技术领域将呈现出两个显著趋势:一体化和融合化。企业应以战略和顶层设计为先导,用体系化的思维全面构建大数据能力架构,避免形成新的数据、业务和能力孤岛。 【下载地址见文末】
342 0
|
11月前
|
存储 机器学习/深度学习 人工智能
|
2022 世界互联网大会:阿里云 ODPS 入选世界互联网领先科技成果
ODPS(Open Data Platform and Service)是阿里云自研的一体化大数据计算平台和数据仓库产品,10 余年来持续迭代,提供了实时离线一体、流批一体、湖仓一体、大数据 AI 一体的多场景能力,是业界少有的完全自主研发,支持 10 万级服务器并行计算、百万级 CPU 可扩展大数据智能计算平台
295 0
|
11月前
|
机器学习/深度学习 存储 人工智能
|
阿里云ODPS升级为一体化大数据平台,满足用户多元化数据计算需求
为满足用户多元化数据计算需求,阿里云ODPS升级为一体化大数据平台。升级后的ODPS支持大规模批量计算、实时分析等服务,提供实时流式计算、机器学习等多种计算能力,可同时调度超10万台以上服务器规模进行并行计算。从09年开始自研的ODPS 平台也是目前中国应用最为广泛的一体化大数据平台。
295 0
我要发布