大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

数据仓库的分层架构与演进
分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了。接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义。
某智能终端厂商流量商业化项目的云原生大数据平台实践
随着流量获取,移动互联网业务成为集团三大战略之一,启动流量商业化项目,包括类似阿里妈妈的流量联盟、帮助广告主更好买量的数字化营销平台以及用户体系等,其中广告检索和广告大数据平台成为支撑整个流量商业化项目的技术基础。

大数据&AI产品月刊【2022年3月】
大数据&AI产品技术月刊(2022年3月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

阿里云 MaxCompute 2022-3月刊合集
2022年3月,MaxCompute 全新支持 Spark 3.1 版本;物化视图改写能力进一步增强,更多产品动态详情请查看本次月刊。

数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。

数据治理之分类分级-(1)
2022年的一月和二月,我花了大量时间来学习研究分类与分级这个课题,但是并未找到答案。我把分类与分级的问题,定义为一个社会知识的问题。因为分类的问题相当广泛,而且也相当复杂,即便是一个科学家也只能对自己小范围内的数据进行有限的分类。而我们做数据中台数据治理项目交付,面对的数据是非常广泛的,全社会的各种各样的数据都可能是我们要分类的目标。要想把类分好,就要对需要分类的数据及其业务含义、适用场景等都有深入的了解。而我,每次即便是看到某一小类数据都非常的头痛,因为我对这个世界的认知太单薄。用一个成语“蚍蜉撼树”来形容我现在想做的事情,再恰当不过了。
阿里云MaxCompute权限管理和安全配置文档问卷调研
为了提升MaxCompute权限管理和安全配置文档的质量,确保文档能更好地为您服务,本次问卷调研重点收集您对这两个模块文档的意见或建议,问卷填写大概需要花费您5-10分钟。您的反馈对文档改进尤为重要,期待收到您的反馈~

大数据&AI产品月刊【2022年2月】
大数据&AI产品技术月刊(2022年1月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

阿里云云原生一体化数仓正式发布 助力企业数据驱动业务创新
云原生一体化数仓是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。核心是3个一体化和全链路数据治理能力,包括离线实时一体、湖仓一体、分析服务一体、全链路数据治理。

Snowflake vs Redshift RA3 产品对比
原文出自: https://levelup.gitconnected.com/snowflake-vs-redshift-ra3-the-need-for-more-than-just-speed-52e954242715

阿里云MaxCompute为坚韧性系统 — 中国信通院完成首个面向大数据技术产品的混沌测试
随着 2021 年《关键信息基础设施安全保护条例》出台,稳定性已成为各领域客户在功能、性能之外,对大数据技术产品能力评价的重要指标。阿里云MaxCompute大数据平台在13轮不同程度的破坏性测试中,性能水平并未明显下降,被证明为韧性型系统。

阿里云 MaxCompute 2021-11 月刊
2021年11月阿里云MaxCompute集成网易有数BI工具商业化发布;MaxCompute 专有网络连接管理产品化发布;MaxCompute 支持清空分区表中指定分区的数据。更多详情欢迎阅读本文。

Oracle数据到MaxCompute乱码问题详解
集成Oracle数据到MaxCompute,乱码问题分析; 为什么,在oracle数据不乱码,集成到MaxCompute就乱码了? 问题在哪里?

湖仓一体在金融科技行业的实践
上海数禾信息科技大数据平台负责人 程俊杰:MaxCompute+DLF+EMR的湖仓一体架构实现了统一元数据管理 ,统一存储管理,统一权限管理 ,真正实现湖仓计算的自由流动,为企业业务高速发展助力。

阿里云 MaxCompute 2021-10 月刊
2021年10月,MaxCompute集成观远数据(GuanData)BI工具(商业化)发布,MCQA(MaxCompute Query Acceleration)查询缓存机制商业化发布,外表支持Hbase增强版和云原生多模数据库 Lindorm。

RedShift到MaxCompute迁移实践指导
本文主要介绍Amazon Redshift如何迁移到MaxCompute,主要从语法对比和数据迁移两方面介绍,由于Amazon Redshift和MaxCompute存在语法差异,这篇文章讲解了一下语法差异

“万里牛”实时数仓的演进之路
湖畔网络大数据平台负责人 陈晓亮:我们建设数据中台的原动力是希望积累的数据能够持续产生价值,阿里云提供的大数据产品组件,让我们这种中小规模数据团队也有机会可以支撑大数据业务。

新氧云原生全栈数仓最佳实践
新氧数据中台数据研发部总监 高宏超:自建大数据平台面临困难与挑战,我们从成本、安全、资产管理及组件可扩展性等综合考量后决定整体迁移到阿里云,上云后,总体资源成本降低30%,性能上提升2-3倍,商家、用户、活动等运营体验提升,未来期待更多互动和交流。

阿里云 MaxCompute 2021-9 月刊
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,基于MaxCompute与推荐、搜索、机器学习等产品可以构建智能推荐、用户增长等多种常用的解决方案。同时MaxCompute具备大规模数据科学分析、半结构化数据处理能力,也可提供基于Delta lake、Hudi格式的湖仓一体方案 。9月MaxCompute金融云华南1(深圳)节点正式开服。

“后红海”时代, 阿里资深技术专家揭秘当下大数据体系
任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从 “戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面 20 年中,大数据技术也经 历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠 的技术。

基于Delta lake、Hudi格式的湖仓一体方案
Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察。MaxCompute 在湖仓一体架构中,通过支持 Delta Lake 和 Hudi 在数据湖中提供数据仓库性能。

基于MaxCompute SQL 的半结构化数据处理实践
MaxCompute作为企业级数据仓库服务,集中存储和管理企业数据资产、面向数据应用处理和分析数据,将数据转换为业务洞察。通过与阿里云内、外部服务灵活组合,可构建丰富的数据应用。全托管的数据与分析解决方案,可简化平台运维、管理投入,提升面向业务的服务能力,加速价值实现。

基于 MaxCompute + Hologres 的人群圈选和数据服务实践
本文主要介绍如何通过 MaxCompute 进行海量人群的标签加工,通过 Hologres 进行分析建模,从而支持大规模人群复杂圈选场景下的交互式体验,以及基于API的数据服务最佳实践。

基于MaxCompute分布式Python能力的大规模数据科学分析
如何利用云上分布式 Python 加速数据科学。 如果你熟悉 numpy、pandas 或者 sklearn 这样的数据科学技术栈,同时又受限于平台的计算性能无法处理,本文介绍的 MaxCompute 可以让您利用并行和分布式技术来加速数据科学。也就是说只要会用 numpy、pandas 和 scikit-learn 之一,就会用 MaxCompute 分布式 Python 的能力。

2021阿里巴巴大数据技术公开课第二季 — SaaS模式云数据仓库MaxCompute应用场景实践
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,基于MaxCompute与推荐、搜索、机器学习等产品可构建智能推荐、用户增长等多种用户常用的解决方案。同时MaxCompute具备大规模数据科学分析、半结构化数据处理能力,也可提供基于Delta lake、Hudi格式的湖仓一体方案 。本季直播将对基于MaxCompute的经典解决方案和能力进行最佳实践介绍。

阿里云 MaxCompute 2021-8 月刊
8月MaxCompute最新发布多项新功能,包括MaxCompute SQL 支持物化视图;流式数据通道服务功能商业化发布;SQL UPDATE、DELETE和MERGE INTO功能商业化发布;支持读取 OSS 上 Hudi、Delta Lake 格式文件;支持访问开启 Kerberos 认证授权机制的 Hadoop 集群。

基于 MaxCompute 的实时数据处理实践
MaxCompute 通过流式数据高性能写入和秒级别查询能力(查询加速),提供EB级云原生数仓近实时分析能力;高效的实现对变化中的数据进行快速分析及决策辅助。当前Demo基于近实时交互式BI分析/决策辅助场景,实现指标卡近实时BI分析、近实时市场监测、近实时趋势分析、近实时销量拆分功能。

基于MaxCompute+开放搜索的电商、零售行业搜索开发实践
搜索一直是电商行业流量来源的核心入口之一,如何搭建电商行业搜索并提升搜索效果,一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务,但随着商品数据的增多和业务流量的增长,难免会遇到性能瓶颈和效果瓶颈。另一方面,随着电商、直播、云计算等技术的不断发展,越来越多的传统零售企业正在进行互联网云上转型,特别是受近两年疫情等因素的影响,APP、小程序已经成为零售企业重要的业务增长来源。在此背景下,如何快速搭建高效搜索服务成为零售行业上云及转型的难题。

MaxCompute执行引擎核心技术DAG揭秘
作为业界少有的EB级数据分布式平台,MaxCompute每天支撑上千万个分布式作业的运行。这些作业特点各异,既有包含数十万计算节点的超大型作业,也有中小规模的分布式作业。不同用户对于不同规模/特点的作业,在运行时间,资源使用效率,数据吞吐率等方面,也有着不同的期待。DAG作为MaxCompute执行引擎的核心技术之一,在提供了底层统一的动态执行框架的同时,实现了一个在离线混合的执行模式(Bubble Execution),达到了平衡极致性能以及高效的资源利用率的目的。

基于 MaxCompute 的业务增长解决方案
在互联网行业红利已过、在获客成本越来越高、在用户在线时长全网基本无增长以及信息大爆炸的情况下,如何更好的转化新用户和提升老用户粘性就变得至关重要,智能化的个性化推荐无疑是经过验证的重要手段之一,我们每天使用的移动App或企业内都处处有其身影。

使用AirFlow调度MaxCompute
airflow是Airbnb开源的一个用python编写的调度工具,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行,通过python代码定义子任务,并支持各种Operate操作器,灵活性大,能满足用户的各种需求。本文主要介绍使用Airflow的python Operator调度MaxCompute 任务

Kettle on MaxCompute使用指南
Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。Kettle支持丰富的数据输入输出源,数据库支持Oracle,MySql,DB2等,也支持业界各种开源的大数据系统,例如HDFS, HBase, Cassandra, MongoDB等。本文将介绍如何利用MaxCompute的插件无缝对接阿里云的大数据计算平台——MaxCompute。

外部工具连接SaaS模式云数仓MaxCompute 实战—— 数据库管理工具篇
本次直播将主要分享MaxCompute查询加速功能、数据库管理工具DBeaver、DataGrip、SQL Workbench/J的部分连接演示。

外部工具连接SaaS模式云数据仓库MaxCompute实战——BI分析工具篇
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据开发者经济并高效的分析处理海量数据。

2021阿里巴巴大数据技术公开课第一季 — 外部工具连接SaaS模式云数仓MaxCompute实战
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据开发者经济并高效的分析处理海量数据。

MaxCompute Spark 资源使用优化详解
本文主要讲解MaxCompute Spark资源调优,目的在于在保证Spark任务正常运行的前提下,指导用户更好地对Spark作业资源使用进行优化,极大化利用资源,降低成本。

MaxCompute中如何通过logview诊断慢作业
MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因