大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

持续定义Saas模式云数据仓库+实时搜索
本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义Saas模式云数据仓库+实时搜索》的相关分享。以下是视频内容精华整理,主要包括以下三个部分:1.Why:概述与价值;2.What:应用场景;3.How:最佳实践。

持续定义SaaS模式云数据仓库+Serverless
本文将为您介绍现代云数据仓库的业务场景与资源使用需求,不同资源交付模式的差异化分析。并结合MaxCompute Serverless的特点及价值来讲解使用MaxCompute Serverless的最佳实践。

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台 “湖仓一体”
2020年9月18日,阿里云在云栖大会正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。

阿里云 MaxCompute 2020-9 月刊
MaxCompute改版控制台,优化全托管云数据仓库服务的管理和使用体验;同时作业监控诊断工具Logview功能升级发布,扩展了作业的监控指标,提供作业回放功能以及新增Fuxi Sensor支持查看作业内存及CPU使用。

【转载】MaxCompute full outer join改写left anti join实践
ods层数据同步时经常会遇到增全量合并的模型,即T-1天增量表 + T-2全量表 = T-1全量表。可以通过full outer join脚本来完成合并,但是数据量很大时非常消耗资源。本文将为您介绍在做增量数据的增加、更新时如何通过full outer join改写left anti join来实现的最佳实践。

Spark On MaxCompute如何访问Phonix数据
如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,目前没有对应的案例,为了满足用户的需求。本文主要讲解使用Spark连接Phonix访问Hbase的数据再写入到MaxCompute方案实践。该方案的验证是使用hbase1.1对应Phonix为4.12.0。本文从阿里云Hbase版本的选择、确认VPC、vswitchID、设置白名单和访问方式,Phonix4.12.0的客户端安装,在客户端实现Phonix表的创建和写入,Spark代码在本地IDEA的编写以及pom文件以及vpcList的配置,打包上传jar包并进行冒烟测试。
SaaS模式云数据仓库 MaxCompute 问答整理之2020-07~08月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

阿里云 MaxCompute 2020-8 月刊
MaxCompute商业化发布数据备份恢复和数据科学Mars两项重要功能,同时公测发布MaxCompute查询加速。秒级恢复误删除数据,分布式加速 Python 数据科学栈,自动识别短查询作业并加速处理,满足报表分析、即席查询场景的使用要求尽在8月刊。

MaxCompute中如何通过policy 禁止角色的删除权限
Policy授权则是一种基于主体的授权。通过Policy授权的权限数据(即访问策略)被看做是授权主体的一种子资源。只有当主体(用户或角色)存在时才能进行Policy授权操作。当主体被删除时,通过Policy授权的权限数据会被自动删除。 Policy授权使用MaxCompute自定义的一种访问策略语言来进行授权,允许或禁止主体对项目空间对象的访问权限。Policy授权机制,主要解决ACL授权机制无法解决的一些复杂授权场景。

持续定义Saas模式云数据仓库+BI
简介:阿里云技术专家海清为大家带来持续定义Saas模式云数据仓库+BI的介绍。内容包括云数据仓库概述,BI使用场景与趋势,基于MaxCompute云数仓+BI的特性,以及实践案例。

使用日志审计查看MaxCompute执行过哪些操作
MaxCompute完整地记录用户的各项操作行为,会自动将操作日志实时投递到ActionTrail中,ActionTrail针对作业(Instance)、表(Table)、函数(Function)、资源(Resource)、用户(User)、角色(Role)和授权(Privilege)等事件的多种操作行为进行记录。

持续定义Saas模式云数据仓库+实时分析
从实时分析的价值、场景和数据流程,以及用户对平台能力要求展开,讲述云数据仓库MaxCompute的产品能力优势 ,面对实时分析场景的能力演进要求。进而以实时分析典型场景的全数据流程处理、建模和分析的最佳实践,讲解MaxCopute+Hologres的解决方案,展现强强组合应的能力优势。

MaxCompute资源管理—— 包年包月资源组隔离
使用基于MaxCompute云数据仓库的企业,由于业务的差异,会创建多project进行数据隔离。同时也因为业务的差异,每个project需要跑的任务量、业务紧急程度等也有差异,因此不同project对计算资源的需求也不一致。本文我们一起探讨如何通过MaxCompute管家实现MaxCompute包年包月的资源隔离。

DataWorks使用Shell节点调用自定义资源组执行脚本
本文主要介绍DataWorks使用Shell节点调度自定义资源组执行Shell脚本,且使用该功能需要用户的DataWorks版本为企业版。文中主要内容包括配置自定义资源组,以及设置ECS的amdin用户权限,脚本模式使用MaxCompute客户端,并配置手动业务流程执行对应的Shell脚本在开发环境运行,检测其脚本执行的命令是否正确。该功能对于用户调度用户ECS上的的程序提供了便利,使其他的任务能和DataWorks的调度结合起来。

SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生,有效提升企业数据安全管理水平
日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。

SaaS 模式云数据仓库 MaxCompute 数据安全最佳实践
MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,本文将针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,结合数据生命周期,为您介绍基 于MaxCompute 和 DataWorks 原生集成安全能力的最佳实践。

阿里云 MaxCompute 2020-7 月刊
2020年7月,MaxCompute发布使用包年包月计算资源作业支持优先级功能等8项功能,并于8月5日重磅发布企业级安全新能力,解读SaaS模式云数据仓库MaxCompute数据的持续保护。
MaxCompute资源管理—— 包年包月资源分时
2020年7月23日开始,MaxCompute 管家陆续对各个区域进行升级新版本,新版本支持的功能之一——分时配额,将支持对预留计算资源(预留CU)进行按时段切分,满足时段的差异化资源需求,满足对资源隔离(生产/开发/自助分析)不同工作负载的能力,避免相互干扰,同时更大化提高资源使用率。

MaxCompute/Dataworks云数仓高可用最佳实践
大数据计算服务(MaxCompute,原名ODPS)是一种企业级SaaS模式云数据仓库,能够快速、完全托管的EB级数据仓库解决方案。DataWorks和MaxCompute关系紧密:DataWorks为MaxCompute提供一站式的数据同步、业务流程设计、数据开发、管理和运维功能。 本文主要介绍在使用阿里云MaxCompute/DataWorks运维过程中经常会遇到的问题及对应的解决方法。

飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute
企业在数字化转型过程中面临数据技术平台建设和运营的诸多挑战,随着现代化数据仓库向多功能、服务化方向发展演进,技术侧的变革为解决企业数据平台各项挑战带来新的可能。MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的外部客户广泛使用且高度信赖的企业数据平台。本次直播将为您介绍SaaS模式云数据仓库MaxCompute核心能力及优势,并结合大数据分析平台经典使用场景,为您介绍MaxCompute 为企业带来的业务敏捷性、面向分析统一平台、显著降低TCO等关键业务价值。

MaxCompute问答整理之2020-06月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

【十年飞天,终成大器】2020阿里巴巴大数据技术公开课第三季——阿里巴巴大数据产品价值解读
在大数据技术上,中国技术已然站在世界巅峰,十年飞天,终成大器。在《超越Hadoop》一书中也有提到:阿里云战略上最与众不同之处,就是坚持追求拥有自己的具有竞争力的核心技术。

阿里云 MaxCompute 2020-6 月刊
MaxCompute备份与恢复功能(公测)发布,提供持续备份用户修改/删除历史数据,支持快速恢复,持续保护数据安全。 该功能适用于广泛的企业级客户,尤其适用于对数据保护有强需求、担心数据误删除以及担心数据被恶意删除的客户。

独家下载 | “伏羲”神算!阿里巴巴经济体核心调度系统揭秘
阿里巴巴 9 位技术专家为你深度解析阿里巴巴经济体核心调度系统“伏羲”。伏羲(Fuxi)作为十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),十年来,在技术能力上持续演进。本书从面向大数据、云计算的调度挑战出发,介绍伏羲调度系统及各子领域的关键技术进展,并以双11为典型场景进行最佳实践的介绍,为你呈现大数据分布式调度技术的深水区玩法。— 《“伏羲”神算》现在可以免费下载阅读啦,快来先睹为快吧。

SaaS模式云数据仓库MaxCompute发布企业级新能力:兼顾成本与性能,持续保护云上数据及服务安全
2020年6月9日,阿里云MaxCompute全新发布企业级新能力,在成本、性能、安全方面,持续定义企业级SaaS模式云数据仓库,通过 “云数据仓库+” 的新模式,帮助企业实现数字经济新优势。

SaaS模式云数据仓库MaxCompute发布企业级新能力:兼顾成本与性能,持续保护云上数据及服务安全
2020年6月9日,阿里云MaxCompute全新发布企业级新能力,在成本、性能、安全方面,持续定义企业级SaaS模式云数据仓库,通过 “云数据仓库+” 的新模式,帮助企业实现数字经济新优势。

阿里云 MaxCompute 2020-5 月刊
MaxCompute迁移工具MMA2.0新版本发布,MMA2.0不仅在技术架构上做了重构,在功能上也有重大升级,提升了迁移效率和运行稳定性的同时,在操作体验上也更加自动化和智能化。更多5月产品动态,欢迎阅读MaxCompute5月刊。

阿里云 MaxCompute 2020-5 月刊
MaxCompute迁移工具MMA2.0新版本发布,MMA2.0不仅在技术架构上做了重构,在功能上也有重大升级,提升了迁移效率和运行稳定性的同时,在操作体验上也更加自动化和智能化。更多5月产品动态,欢迎阅读MaxCompute5月刊。

MaxCompute问答整理之2020-04~05月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

如何使用MaxCompute Spark读写阿里云Hbase
通过Spark on MaxCompute来访问阿里云的Hbase,需要设置网络安全组、Hbase的白名单和配置Spark的参数

这场大数据+AI Meetup,一次性安排了大数据当下热门话题
如何选择合适自己业务的大数据计算引擎?数据湖、数据仓库、HSAP究竟能解决什么问题?机器学习平台那么多,好用的有哪些?这场大数据+AI Meetup将会一一为您解答

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度
大数据平台的数据与计算分布在多个数据中心的不同集群,每个集群的存储和计算能力有限,受地域影响,集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率,降低带宽成本,是亟待解决的一大难题。

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度
大数据平台的数据与计算分布在多个数据中心的不同集群,每个集群的存储和计算能力有限,受地域影响,集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率,降低带宽成本,是亟待解决的一大难题。
数据仓库、数据湖崛起后,下一个应该是什么?
数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?

面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘
随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

EB级计算平台调度系统伏羲DAG 2.0:构建更动态更灵活的分布式计算生态
伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute(内部代号ODPS),分布式调度 Fuxi),过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。

EB级计算平台调度系统伏羲 DAG 2.0: 构建更动态更灵活的分布式计算生态
伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute(内部代号ODPS),分布式调度 Fuxi),过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。

阿里云 MaxCompute 2020-4 月刊
4月MaxCompute审计日志发布,可通过历史事件及明细查询、实时行为事件分析,满足您实时审计、问题回溯分析等需求。同时,MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制,帮您更好的监控消费。更多4月的新功能与新解决方案,欢迎阅读4月刊。

MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用
首先介绍了广告数据流,分析了MaxCompute 是如何解决广告的问题;然后通过阿里妈妈内部的应用经典场景来介绍其如何使用MaxCompute;最后介绍了MaxCompute提供的高级配套能力以及在计算和存储方面的优化。

基于MaxCompute构建Noxmobi全球化精准营销系统
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。在本文中北京多点在线高级架构师杨洋分享了基于MaxCompute构建Noxmobi全球化精准营销系统。