
MaxCompute产品PD
一、云数据仓库本章节介绍云数据仓库带来的价值及解决方案。MaxCompute:SaaS模式企业级云数据仓库的应用场景包括广告场景-用户标签计算、分析;业务运营场景-业务指标计算、查询;各行业搭建数据仓库;云上弹性扩展大数据计算和存储。产品优势包括云原生极致弹性:-云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求;-简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用;-企业级平台服务:支持开放生态,提供企业级安全管理能力;-与阿里云众多大数据服务无缝集成;-安全:多租户环境下安全控制能力强;-大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证。推荐组合包括BI分析场景和机器学习场景,分别为MaxCompute+Hologres+Flink+DataWorks+Quick BI,以及MaxCompute+PAI+DataWorks。MaxCompute算力资源产品解决方案如下图所示。第一,包年包月。满足常规需求,稳定财务支出;支持作业优先级,保障关键任务稳定产出;支持存储与计算资源包购买。第二,按需使用。无服务器架构,超大规模的存储和计算扩展能力;自动匹配业务需求,完美适配业务的高速变化;不使用不付费。第三,多计算资源打通。融合打通包年包月与按需使用的弹性资源,只需联合开通,即可实现更优的成本与性能平衡的资源解决方案。第四,抢占空闲资源。非预留计算资源,抢占并使用服务空闲计算资源,价格较包年包月标准计算资源下降74%。安全事件频发,云上大数据服务如何保障企业数据和服务安全。MaxCompute构建全面、多层次的安全管理能力,持续保护云上数据及服务安全。包括MaxCompute安全生态,平台系统安全,基础设施安全三大部分。飞天大数据平台解决方案适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景。方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;涉及产品:日志服务SLS、数据传输DTS、DataHub、实时计算Flink、交互式分析、云数仓MaxCompute、数据治理DataWorks、Quick BI 报表、 DataV大屏、ES搜索、机器学习PAI。二、数据银行本章节介绍数据银行定义相应行业应用。数据银行旨在通过聚合内外部数据,融合共享,实现盘活资产运营、变现数据交易、释放数据价值,打造面向企事业产业链、面向生态链、面向社会的数据资产变现交易平台。目的是通过数据融合、共享、交易,实现数据价值变现最大化。服务范围包括数据交易(提供数据资产陈列、API传输及数据交易服务,拉通供需,实现数据价值变现)和数据增值(通过内外部数据融合及深度挖掘,提升数据内涵,实现数据增值)。特点是融合数据,交易变现,深度挖掘,最大化释放数据价值并赋能产业发展。其中,包括盘活数据资产,数据价值提升,产业发展赋能,以及三大数据服务,具体内容如下图所示。这一块是行业应用架构-友盟,具体架构如下图所示。三、MaxCompute+数据银行本章节介绍云数据仓库MaxCompute+数据银行(友盟)实践。主题数据包及数据来源包括三个部分。第一,统计分析。第二,开发者工具。第三,营销增长。我们如何共享、转让、公开披露您以及您最终用户的个人信息。第一,共享。承担保密义务,不会为满足第三方的营销或非法目的而向其出售或出租您的信息,会与这些合作伙伴合作以多种形式将经U-DIP数据中台处理、加工后的脱敏数据用于包括优化广告投放和提升营销效果等商业化使用。第二,转让。不会向任何第三方转让您以及您最终用户的个人信息。第三,公开披露。(1)获得您或您最终用户明确同意;(2)基于法律的披露:在法律、法律程序、诉讼或政府主管部门强制性要求的情况下,我们可能会公开披露您或您最终用户的个人信息。(3)在紧急情况下,经合理判断是为了保护我们、我们的客户、最终用户或其他人的重要合法权益。友盟数据银行已实现产品功能和价值“一键通”模式。一体化消费体验包括三个部分。第一,主题数据包。每日高性能采集加工海量数据,自动生产APP/WEB/小程序/广告/PUSH主题数据包。第二,一键数据订阅开放。与Maxcompute(DataWorks) 云数据仓库无缝对接,一键订阅数据。第三,主题分析模板与自助分析。预置分析模板和拖拽式自助分析能力,业务人员无需麻烦开发跑数即可完成分析。友盟数据银行通过和MaxCompute共创带来的客户体验提升,如下图所示。从账号登陆,到应用配置,现在比过去更加智能,更加便捷。这一块是开放多端、多主题的明细数据与指标数据,为开发者构建私域数据体系。指标数据开放,将友盟+9年行业经验沉淀回馈于开发者:第一,实时指标大屏展示。第二,多维指标分析监控。明细数据开放,助力开发者进行与业务数据的数据融合自助分析:第一,实时渠道ROI分析。第二,投放-使用-转化大漏斗。第三,用户分层运营。第四,实时推荐服务。友盟数据银行支持云上数仓无缝链接,为开发者提供一键式数据模型体系开放的体验。开发者云上数仓,高性价比交互式查询服务,兼容接入异构数据源进行查询和分析。为您提供快速、完全托管的PB级数据仓库解决方案,经济并高效的批量分析海量数据。四、案例介绍本章节介绍MaxCompute+数据银行的应用案例及分析。第一个案例:本地生活行业客户,业务数据化+数据可视化。客户:本地生活类,智慧社区服务平台。痛点:数据化运营程度低,数据分散,业务人员的数据需求实现周期长。实施方案:第一,规范化的多端数据采集。基于业务需求梳理进行埋点方案设计,APP、H5、小程序等多端SDK采集。第二,实时数据和离线数据的订阅返还。经过友盟统一ETL服务的采集数据分别投递至客户SLS(实时)、DLA (离线)。第三,数据报表设计与开发。离线数据自动联通QBI,除4个预置看版外,根据具体业务需求搭建业务分析监测。方案结果:第一,业务数据化。多端采集行为数据纳入数仓体系建设。第二,数据可视化。日常数据监测看版,让业务人员快速看到产品迭代、运营动作的效果。第二个案例:游戏行业客户,多源数据融合。客户:独立游戏工作室。痛点:APP行为数据与后台业务数据割裂。实施方案:第一,数据采集。使用游戏行业埋点方案进行APP端数据采集,获取多种用户识别ID。第二,数据迁移。存入其他云厂商的用户付费、广告收入等数据迁移入阿里云。第三,数据融合。采集行为数据一键投递至阿里云数据库,通过用户唯一识别将数据融合。方案结果:数据融合分析。结合用户留存行为和收入数据,测算用户生命周期价值,判断渠道回本周期、渠道投放优选。更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
一、产品功能介绍基于查询加速的数仓架构当前比较盛行的实时数仓,基本都是基于Flink来做的。今天分享的内容不是把 MaxCompute 定义为一个实时数仓,我们讲的是基于当前数据的实时处理流程,在MaxCompute中是怎么去做支持的,怎么在 MaxCompute 中做实时数据的接入、查询、应用。开源的实时数仓是基于Flink来做的,Flink本质是实时计算,支持流批一体,所以比较实时的场景都是基于Flink+Kafka+存储来做的。本次分享主要不是讲计算环节,本次主要讲解基于BinLog、Flink、Spark Streaming的实时流数据是怎么写入到 MaxCompute 中的。通过实时流通道,实时写入MaxCompute,写入即可见,这是 MaxCompute 的产品特点。目前市场的数仓产品写入查询绝大多数都有延时存在, MaxCompute 是做到了高QPS的实时写入,写入即可查。可以通过查询加速(MCQA)实时查询写入进 MaxCompute 的数据。对接到BI工具,即席查询可以实时访问到实时写入的数据。Binlog写到到MaxCompute,是通过DataX,支持增删改查的合并,后续在产品功能迭代中,MaxCompute会支持upsert,支持业务数据库数据的新增、修改、删除。Flink数据计算完之后写入到 MaxCompute 时,直接使用Streaming Tunnel插件写入MaxCompute中,这个过程不需要做代码开发,Kafka也支持了插件。实时写入目前没有做写入数据的计算处理环节,只是快速的把现在流式数据包括消息服务的数据,直接通过Streaming Tunnel服务写入到MaxCompute中。当前Streaming Tunnel支持了主流消息服务,如Kafka、Flink,做了插件支持。以及Streaming Tunnel SDK,当前只支持Java SDK。可以通过Streaming Tunnel SDK做一些应用读取之后的逻辑处理,再调取Streaming Tunnel SDK写入到MaxCompute中。写入MaxCompute之后,目前主要的处理环节是针对写入的数据,进行直读查询,也可以把写入的数据关联到MaxCompute中的离线数据,做联合查询分析。在查的过程中,如果是通过SDK或者JDBC接入时,可以打开查询加速(MCQA)功能。如果是通过web console或DataWorks,是默认开启查询加速(MCQA)功能。当前主要是BI分析工具和第三方应用层分析工具,通过SDK或JDBC链接MaxCompute时,是可以打开查询加速(MCQA)功能,这样可以做到接近秒级查询实时写入的数据。整体来看,现在的场景主要是数据的实时流式写入,写入之后可以结合离线数据,做联合分析查询,通过查询加速(MCQA)功能。在数据进入MaxCompute后,是没有做计算的,只是做查询服务。这是目前基于MaxCompute实时数据处理场景。流式数据写入功能介绍当前流式数据写入功能已经在中国区商业化发布。当前此功能是免费使用。功能特定• 支持高并发、高QPS(Queries-per-second)场景下流式数据写入,写入即可见。• 提供流式语义API:通过流式服务的API可以方便的开发出分布式数据同步服务。• 支持自动创建分区:解决数据同步服务并发创建分区导致的并发抢锁问题。• 支持增量数据异步聚合(Merge):提升数据存储效率。• 支持增量数据异步zorder by排序功能,zorder by详情请参见插入或覆写数据(INSERT INTO | INSERT OVERWRITE)。性能优势• 更优化的数据存储结构,解决高QPS写入导致的碎片文件问题。• 数据链路与元数据访问完全隔离,解决高并发写入场景下元数据访问导致的抢锁延迟和报错问题。• 提供了增量数据异步处理机制,可以在使用过程中无感知情况下对新写入的增量数据做进一步处理,已经支持的功能包括:• 数据聚合(Merge): 提升存储效率。• zorder by排序:提升存储、查询效率。流式数据写入-技术架构Stream API无状态并发数据实时可见技术架构分为三个部分:数据通道、流计算数据同步、自研应用。当前数据通道支持的有Datahub、Kafka、TT、SLS流计算数据同步支持的有Blink、Spark、DTS、DataX、kepler/DD数据写入MaxCompute中,在计算集群前会有Tunnel集群存在,提供Stream Tnnel服务来完成从客户端到Tunnel服务端数据的写入。写入过程是一个文件最佳的过程,最后会有一个文件的合并。这个过程是消耗了数据通道过程中的计算资源服务,但这一消耗是免费的。查询加速功能介绍实现数据实时写入与基于查询加速的交互式分析目前查询加速功能可以支持日常查询80%-90%的场景。查询加速功能的语法与MaxCompute内置语法完全一致。MaxCompute查询加速 – 针对实时性要求高的查询作业,全链路加快 MaxCompute 查询执行速度• 使用MaxComputeSQL语法和引擎,针对近实时场景进行优化• 系统自动进行查询优化选择,同时支持用户选择延时优先还是吞吐优先的执行方式• 针对近实时场景使用不同的资源调度策略:latencybased• 针对低延时要求的场景进行全链路优化:独立执行资源池;多层次的数据和metaCaching;交互协议优化收益• 简化架构,查询加速与海量分析自适应的一体化方案• 对比普通离线模式快几倍甚至数十倍• 结合MaxCompute流式上传能力,支持近实时分析• 支持多种接入方式,易集成• 支持自动识别离线任务中的短查询,后付费模式是默认开启。预付费当前支持为使用包年包月资源的实例下SQL扫描量在10 GB以内的查询作业提供免费查询加速服务。• 低成本,免运维,高弹性查询加速-技术架构 自适应执行引擎、多层次缓存机制当SQL提交到MaxCompute计算引擎时,会分为两个模式,离线作业(吞吐量优化)和短查询(延迟优化)。两个模式从技术底层来说,查询加速作业做了执行计划的缩减和优化,计算资源是预拉起资源,是向量化执行,会基于内存/网络shuffle以及多层次的缓存机制。相比于离线作业的代码生产到磁盘shuffle,再进行资源排队申请。查询加速会进行识别作业,如果符合条件,则直接进入预拉起资源。在数据缓存部分,基于Pangu分布式文件系统,对表跟字段会有一个缓存机制。查询加速-性能比对TPCDS测试集与某业界领先竞品的性能比较• 100GB超越30%以上• 1TB规模性能不相上下二、应用场景流式数据写入-应用场景查询加速-应用场景固定报表快速查询• 数据ETL处理为面向消费的聚合数据• 满足固定报表/在线数据服务需求,秒级查询• 弹性并发/数据缓存/易集成通过数据应用工具或者是BI分析工具通过JDBC/SDK接入到MaxCompute,可以直读到MaxCompute内的表数据。Ad-hoc数据探索分析• 自动识别作业特征,根据数据规模、计算复杂度选择不同的执行模式,简单查询跑的快、复杂查询算得动• 配合存储层建模优化,如分区、HashClustering等进一步优化查询性能近实时运营分析• 支持批量和流式数据接入• 历史数据和近实时数据融合分析• 产品级别集成消息服务:• Datahub-日志/消息• DTS-数据库日志• SLS-行为日志• Kafka-物联网/日志接入三、工具及接入流式数据写入-接入消息&服务• 消息队列Kafka(插件支持)• Logstash的输出插件(插件支持)• Flink版内置插件• DataHub实时数据通道(内部插件)SDK类新接口-Java• 简单上传示例• 多线程上传示例• 异步化IO多线程上传示例参考上述示例可以自己封装相应的业务逻辑。查询加速-接入工具类• DataWorks(默认开启)• ODPS CMD(需要配置)• MaxCompute Studio(需要配置)SDK类接口• ODPS JavaSDK• ODPS PythonSDK• JDBC老接口兼容• 自动识别模式四、Demo&总结基于MaxCompute的实时数据处理实践实现对变化中的数据进行快速高性能分析及决策辅助,10亿条数据查询秒级获取。本次Demo实践是通过MaxCompute+QuickBI实现。QuickBI现在已支持直连的MaxCompute查询加速模式,QuickBI本身已有加速引擎,如DLA、CK等。当前最优的模式,直连MaxCompute走查询加速模式是最快的。实践Demo请点击视频查看。实践总结优点• Streaming Tunnel: 实时写入可见,解决了高QPS写入导致的碎片文件问题;• 查询加速:低延迟-多级缓存&快速资源调度、易用-一套SQL语法、弹性-存储计算分离提升• 目前下游应用消费/汇总时每次只能全量查询,无法做进一步实时流计算处理;实时入库不支持修改、删除;• 后续MC提供流式SQL引擎运行实时流作业,做到流批一体更多关于大数据计算、云数据仓库技术交流,欢迎扫码查看咨询。
2021年1月27日,阿里云 MaxCompute 大数据计算平台联合帆软正式发布企业级BI分析解决方案,MaxCompute 成为帆软 FineBI 与 FineReport官方数据源。此次专为企业数据分析实现的产品集成,将极大解决企业数据分析及报表应用难题,助力企业业务效率进一步提升。MaxCompute 是阿里云提供的面向分析的企业级 SaaS 模式云数据仓库,服务着数以万计的客户和阿里巴巴集团。MaxCompute 基于自身Serverless 架构,提供快速、全托管的在线数仓服务,在消除传统数据平台的资源扩展性和弹性限制方面极具优势,同时强调面向分析的便捷性与体验,使用户经济高效的分析处理海量数据,并便捷的对接BI分析工具,真正实现从数据到洞察的高效转化。帆软作为中国专业的大数据BI和分析平台提供商,致力于为全球企业提供一站式商业智能解决方案,旗下两款主要产品FineReport、FineBI本次与MaxCompute实现互联互通,帮助企业更好的开展以问题为导向的探索式分析工作。目前,该联合方案已在工业和医药行业客户中得到应用和实践落地。客户基于MaxCompute构建数据仓库,对主题数据域和业务数据域的数据进行处理,各种主题数据在数仓经过分析后,向上对FineBI提供数据源查询。FineBI可通过JDBC接口连接到MaxCompute数据仓库,用户可在FineBI通过即席查询进行自助式报表处理,也可将常用的数据抽取到FineBI进行缓存。MaxCompute提供的查询加速功能,可以满足200G以内数据的亚秒级查询。阿里云MaxCompute一直秉持开放、生态的技术路线,持续投入产品生态建设,与阿里云上多款云产品实现无缝集成的同时,与众多开源大数据生态和商业工具生态实现集成互通,以真正满足客户灵活、多样的产品集成需求,构建云数据仓库开放的产品能力。本次发布与帆软FineBI 、FineReport两款产品的集成,将为企业带来高效的交互分析和强大的报表展示功能,支持多维深入分析和数据价值挖掘,助力企业对未来经营状况作出准确预测和决策。了解更多有关MaxCompute产品和技术,欢迎扫码加入MaxCompute开发者社区钉钉群。
2021年10月