
能力说明:
掌握企业中如何利用常见工具,进行前端开发软件的版本控制与项目构建和协同。开发方面,熟练掌握Vue.js、React、AngularJS和响应式框架Bootstrap,具备开发高级交互网页的能力,具备基于移动设备的Web前端开发,以及Node.js服务器端开发技能。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明轻松筹数据平台部高级总监 孟奇奎 本文讲述了轻松筹是如何利用阿里云大数据平台搭建低成本的数据中台,实现数据化运营。数据中台支撑了轻松筹丰富的运营活动,通过智能化的手段,为用户和企业创造了价值。 轻松筹是一家聚焦于事前保障、事后救助的健康管理平台,数据驱动是轻松筹最重要的文化。轻松筹的大数据平台是基于经过时间验证的飞天大数据组件构建的。在轻松筹大数据平台体系内,我们用到了MaxCompute、DataWorks、Hologres、Flink以及GDB、DataHub、PAI等各种成熟的阿里云技术组件。 MaxCompute主要解决我们大数据海量数据存储和计算的需求问题,DataWorks是解决数据的调度问题,Hologres是我们实时数据仓库的核心组件,这个组件解决实时数据采集以及交互式查询问题。Flink是处理流数据的引擎,GDB是处理轻松筹复杂的图数据的计算平台,DataHub是我们的数据的交互平台,PAI是用于我们深度学习和机器学习模型训练的平台。 我们结合轻松筹的特点,构建了轻松筹的数据中台,包括我们的离线数据仓库,实时数据仓库,以及online和offline的AI训练平台。那么在这些基础平台之上,我们构建了一些数据应用的工具和系统,包括实时的或者是T+1的BI报表,数据自由的探索和分析,用户行为采集与分析,用户画像平台,以及我们一些自然语言处理和推荐服务的一些在线的和离线的深度学习和机器学习模型,以及我们成百上千的标签化的数据服务,这些数据服务既包括T+1的,也包括实时的。在这些平台之上的轻松筹的数据应用,在大量的业务场景中支持了我们的精细化运营。 包括我们每天基于大数据会生成我们的电销线索,我们利用算法模型以及人工策略去优化我们的微信推送,短信推送,提升ROI;也利用我们的推荐算法去优化广告流量,提升点击转化率,以及成长转化率。同时我们利用一些NLP以及推荐的算法去进行风险控制,防范来自外部客户的欺诈和内部员工的欺诈。另外大数据平台也会应用于各种各样的运营决策场景,以及管理决策场景。同时在我们的平台上面也有大量的商业分析人员进行灵活的数据分析,去发现商业价值和机会。就到今天为止,我们轻松筹大数据平台已经深入的和各个业务场景进行了结合,我们轻松筹的数据体系在轻松筹发挥越来越大的价值。 为什么选择飞天大数据平台?从轻松筹的实践角度去思考,飞天大数据平台是一种低成本的、高效率的全域数据管理基础设施。以飞天平台最核心的几个产品为例,比如MaxCompute。MaxCompute是一个最具成本效益的全域的全历史周期的数据存储和运算平台,它支持从TB级到PB级数据持续增长,不存在架构上的瓶颈,支持基于海量数据复杂运算逻辑的数据分析,而且成熟度比较高,具有良好的配套设施和兼容性。 另外Hologres支持低延时的交互式数据查询,是实时数仓的最佳技术组件,可以与MaxCompute无缝结合,支持nearline和offline的数据组合应用,并且可以与Flink结合,实现实时的数据抽取加载和转换,并且可弹性扩展。而GraphCompute是支持百亿节点千亿边规模的超大图存储,适用于关系图数据库的存储和计算,为图计算提供了一个低成本可扩展的高效的计算平台,PAI是一个机器学习和深度学习的训练平台,提供了按需付费、弹性扩展的gpu,相比较于独立gpu的服务器具有成本优势,为复杂的模型训练提供了充足的算力资源。这就是我们选择飞天平台作为我们大数据平台的基础设施,构建我们轻松筹的大数据体系的原因。 数据化运营是构建数据闭环,利用数据和算力持续改进的过程。数据化运营不是一个静态的过程,而是一个动态的过程。我们通过构建数据闭环,利用数据和算力,持续改进我们的运营效率。在轻松筹的数据化运营体系里面,我们的大数据平台处于核心的位置。 一方面大数据平台让我们可以从所有的业务系统去抽取用户数据、订单数据、合约数据、项目数据、产品数据;同时在我们的大数据平台上面,我们所有的运营人员可以进行运营活动的创意分析、设计执行以及评估,并形成我们的人工策略和算法策略。这些人工策略和算法策略,使我们可以通过各种各样的客户接触渠道,进行用户触达。 同时另一方面我们的大数据平台也会采集我们所有的运营活动的过程数据、结果数据以及用户反馈数据,我们利用这些数据来进行运营活动的评价,并且对运营活动进行持续的改进和优化,所以说我们利用大数据平台构建数据闭环,同时也构建运营闭环,通过运营闭环实现我们数据化运营的运营策略的持续改进。在这个过程中,我们实现数据驱动运营,数据、算力和算法是最核心的三个要素。其中的算力我们主要是依赖于阿里的飞天大数据平台解决方案。 从轻松筹的数据平台建设角度来看,轻松筹在业务场景上有两个大的场景,一个是数据驱动运营,另外一个是数据驱动管理。我们希望把有限的人力和物力聚焦于我们数据发挥价值,而不是聚焦于底层平台的建设和运维。那么飞天数据平台降低了我们轻松筹大数据平台建设和运维的复杂性,让我们的人力和物力聚焦于数据驱动价值。在任何一家企业里,所有人都认为数据是有价值的,但是能够让数据发挥价值,在任何企业都不是一个简单的事情。 数据驱动价值,从数据的角度来看,我们只是要做到下面5件事情:第一件事是基础中台能力建设,第二件事是构建数据闭环,第三件事是数据产品和工具化,第4件事是指标体系和数据治理,第5件事才是我们把数据聚焦于数据创造价值。而这里面的任何一件事情都不是简单的容易实现的。从数据驱动运营的角度来看,我们首先要把运营目标数据化,其次运营过程数据化,然后我们需要把运营数据形成闭环,运营策略数据化以及运营的智能化。从数据驱动管理的角度来看,我们需要把管理目标指标化,管理目标的跟踪和预警,实现数据支持管理决策,数据支持问题的快速定位和解决,数据支持机会的发现。所以说整个聚焦于数据驱动价值这个场景和目标来说,我们有大量的工作要做,那么我们希望把一些基础平台基础能力的建设和运维的工作让阿里云来承担,而轻松筹主要聚焦于我们的数据应用,数据的价值创造。 通过智能化手段为用户和企业创造价值,这是任何数据平台或者任何注重数据的企业发展的必然结果。数据平台的建设,我们会积累大量的运营案例,我们会记录千百万用户的选择,这些所有的选择都隐藏在数据中,挖掘这些数据的价值,即对企业有价值,又对用户有价值。 我们整个数据平台体系的建设分为三个阶段:第一个阶段是数据的原始积累阶段,我们尽可能详尽的全面的收集数据并保存历史。这段时间我们对数据的存储有比较大的需求。第二个阶段是我们人工策略试验阶段,反复的定义策略,细分客户并付诸执行,观察效果持续改进,同时积累数据。这个阶段我们对平台的计算能力有很高的要求。第三阶段是我们通过机器学习深度学习算法,挖掘数据中蕴含的经验和知识,这些知识有可能来自于运营人员,也可能来自于用户,我们最终是要实现如下的目标:在合适的时间把合适的产品推荐给合适的用户。在这个阶段我们对我们的复杂的计算能力有很高的要求,这个时候PAI会进入我们的视野。 今天在轻松筹的大数据中台上支撑了丰富的运营活动,那么从全公司来看,我们全公司从高管到执行层,经一半的员工每天都会通过数据中台提供的看板了解公司的运营状况,每天在平台上会计算1000+的各类标签,提供毫秒级的标签服务,以及基于标签组合的选人服务。每日有千万+的基于算法评分或者人工细分的客户精准推送,每天会生成近百万的电销线索,每日有千万+的人群定向或者算法推荐支持我们的投放,我们要求的响应时间都是小于50毫秒,每日通过AI审核1000+的大病筹款项目,包括数千+的文本资料和数万+的图片资料,防范我们的客户欺诈。每日有50多位我们的高级分析用户,通过各种工具执行数千次的数据探索与分析。我们有数亿节点,几十亿条边的关系数据运行在阿里云的图数据库上,支持风控和运营,每日在大数据平台上运行有6000+的作业。另外我们利用阿里的gpu资源训练几十个机器学习模型和深度学习模型,优化推送、成单转化、信息流推荐等场景的转化率。 谢谢大家! 更多大数据客户实战案例:https://developer.aliyun.com/article/772449
客如云技术总监 李浩 本次分享介绍客如云如何利用阿里云大数据产品来建设数据中台。客如云是2012年成立的一家公司,覆盖餐饮、零售、美业,还有其他的业态以及服务的一家综合性的SaaS公司。到2020年为止,客如云已经服务了60万商家,帮助60万商家实现了数字化、智能化的改造,接下来我们会覆盖更多的商家。 目前客如云是四中心的架构,我们的研发中心在成都,硬件研发中心在深圳,总部在北京,销售中心在武汉。接下来主要介绍我们的业务范围:客如云是以软硬一体的SaaS收银服务为核心的,所以SaaS收银系统的硬件和软件是我们第一层,是我们的效率工具。第二层,我们和餐饮、零售的友商企业一起打造的人、财、物、客的生态系统。第三层,我们利用增值服务,比如营销、供应链、人效、商业智能、金融服务,还有大数据的应用,去满足各层级的商家的需求。从S1到S5,所有的大小品牌我们是全覆盖的。我们的愿景是帮助客户,帮助商家实现店开天下,客如云来,而我们从中能够更好的服务于商家,帮助商家提效降本,去获得更多的营收,降低更多的成本。目前客如云整体的系统全部建设在阿里云的服务之上,保证了在较少的资源的情况下,支撑我们现在成为平台级的公司。 接下来介绍一下,我们如何利用阿里云的产品来进行数据中台建设的。大家都知道阿里巴巴的数据中台是3个One的核心,One ID,One Data,One Service。在基础设施的完善之上,首先我们要做到数据集成,所以我们利用了阿里云的DataHub、DataWorks、DTS等产品,把我们的业务数据统一到我们的Hadoop集群里面,然后我们现在再迁移到我们的MaxCompute里面,利用大数据的产品来进行整个数据仓库的建设。MaxCompute帮助我们实现了整个离线数据的计算和存储,包括数仓空间的建设,然后我们利用PAI建设了我们的算法中心和机器学习的样板,利用Flink的技术打造了实时计算的平台。我们在这些实时计算和离线计算的基础之上,建立了统一的查询服务。利用阿里云的Hologres产品,实现了我们的一体式查询的One Service的理念。 在这个基础上,我们保证了我们整个的数据应用,包含我们内部的数据应用,BI的产品,还有外部的数据应用,大屏,还有报表,还有整个的算法,智能推荐、精准营销等这块的整个的实现,建立了我们客如云的数据中台,然后快速的满足了我们的内部用户和外部用户的数据需求。 接下来我们再讲一下,在这个过程中,我们如何利用阿里云的产品来帮助解决我们的哪些痛点问题? 首先我们看到的是我们原先是自建的Hadoop集群,难以维护,因为成本很高。我们经过了一年的努力,把整个Hadoop集群换成了MaxCompute,这样的效果很明显,我们的运维成本降低了1倍,计算速度增加了8倍,保证了我们快速交付ETL等计算处理的能力,给到业务线来使用。 第二个问题,我们遇到了很多数据安全的问题,自建的Hadoop集群没办法做数据审计,所以我们用到了阿里云的敏感数据保护产品SDDP,来进行数据的分级分类,保护我们的产品,实现数据的零泄漏。同时我们自建的Presto集群做交互式查询时和我们的MaxCompute又不能相互融合,我们调研了以后发现Hologres的产品,相对来讲比Presto性能更好一些,所以我们用Hologres的产品代替了Presto,保证了我们可以直接从MaxCompute里查询,使整个交互实现了无缝对接。接着我们遇到了一些数据模型,数据建模的产品,目前还在调研Dataphin产品,实现整个的数据模型的建设。 我们最大的痛点是实时大屏的性能问题,这个时候我们发现用Flink的技术,再加上QuickBI能解决我们的前端和后端的问题。接下来我们以实时大屏为核心,来介绍一下我们怎么样应用的,然后怎么样解决掉这个问题的。 数据大屏我们遇到的难点第一个是我们的数据源太多了,我们用到了MySQL、 RDS、MongoDB、Redis、ES等多种数据来源,我们要把这些数据来源统一的汇聚,解决掉我们的数据源多的问题。第二个是我们的大屏性能方面,现在我们数据量特别大,然后样式又特别多,需求特别复杂,这个时候怎么样去解决掉这个问题。接着是看到这些需求,生成这些数据后,如何快速的在前端展示,这也是一个很大的问题。所以我们在调研QuickBI产品的时候,发现确实是能够解决我们这方面的问题。 我们再来看一下我们是如何解决掉问题的。第一个问题,我们其实主要还是要做数据的治理,源数据的管理,血缘关系,甚至是一些多数据源的处理,减少我们的现有的集群。第二个问题,因为数据量大,现在各类企业其实有着海量的数据,需要解决快速查询的问题,方案就是我们利用阿里云的实时计算平台,基于Flink开源技术,解决了我们整个的查数据速度的问题。我认为整个的阿里云的Flink技术确实是能够更快的查询到想查询的海量的数据,它的性能和高扩展性我们确实是得到了体验,我觉得在这块领域阿里云还是名列第一的。而在整个大数据前端这块,我们发现的问题是渲染慢。但是我们用QuickBI自定义拖拽,快速地去定义数据源,导入到不同的框标里面,可以快速的查询出来。 上面是解决了一些问题,接下来介绍客如云的实时计算平台是怎么样的架构。我们通过4个层,基础数据层,实时计算层、接口层和展示层来架设我们的实时计算平台。重点讲一下我们的实时计算层,计算层这块其实我们有一些需求,不单是当天的数据,比如说商家要看这个月现在为止我们的营业额是多少,他不但需要当天的数据,还需要从8月1号到现在为止,所有的数据。所以它会体现到我们不但要有流表的接入,还要有维表的接入,还要有聚合计算,从而形成了一个数据流。多流的汇聚,实现了我们在接口层的调用的情况下,展示层能够展示到我们当天能满足商家每个维度的需求的数据,就像我举的那个例子一样,能够看到当月到现在为止它的营业额是多少,这样的一个场景。所以说我们实时计算的平台主要是为了满足业务各方面的需求。 接下来分享一下实际应用的场景。我们已经帮着一些菜市场实现了数据大屏。这块的展示主要是当天的销量是什么,哪个销量最好,这样能够帮助商家了解第二天进什么货更合适。这个大屏的应用实际上已经是能够帮助商家在实际的生活场景里面得到很好的体验。 餐饮实时大屏是基于我们现有的数据,展示了一下我们中国餐饮大数据的一些情况,但这是只是代表一部分客人的数据。当然这里面可以说客人的规模越来越大,我们做的也会越来越好,我们就可以展示出来到底中国人民喜欢点什么菜,哪个菜是最好吃的,大家喜欢什么样的口味,我们都可以通过我们的实时数据计算,通过数据挖掘来发现出来。 BI应用主要是为内部客户使用,我们的运营团队、销售团队、研发团队还有其他团队,能够保证我们整个的在数据的分析运营和辅助决策里面起到很大的作用,节省很多的管理层的成本和时间。利用我们的BI产品,可以解决这样的需求。 总结一下主要介绍的三点,一个是客如云是干什么的?客如云是要帮助我们的餐饮、零售、美业的商家,实现店开天下、客如云来的愿景的SaaS公司。第二点是客如云如何利用阿里云的大数据产品来建设客如云的数据中台。第三点是客如云如何利用实时大屏、我们的商家画像产品以及其他大数据应用产品,来赋能商家。 感谢大家! 更多大数据客户实战案例:https://developer.aliyun.com/article/772449
玩吧数据智能负责人 于海亮 首先介绍一下我们的公司,公司全称是北京默契破冰科技有限公司,创建于2015年,是一家娱乐社交平台公司,玩吧是我们公司APP的名字,APP上有很多双人小游戏,像卧底大师,你说我猜,大家可以边玩边聊,轻松交友,让社交更轻松。下面介绍下玩吧数据上云的架构图,最左侧数据采集是通过Kafka集群和DataWorks数据集成,中间的流批一体数据仓库,离线数仓用的是阿里云的MaxCompute,实时数据分析使用的是Hologres,机器学习用的是阿里云的PAI,BI报表使用的是QuickBI系统,数据的开发、治理和运维使用的是DataWorks平台。玩吧的BI系统使用了阿里云的全栈产品进行搭建。数据采集使用了阿里云的日志服务,业务DB的数据通过MaxCompute的实时同步系统,将数据同步到数据仓库,离线计算使用ODPS SQL,将数据进行运算处理。最后通过Hologres产品来进行交互式分析。Hologres可以和MaxCompute产品做无缝的集成,节省了数据计算后搬运的时间。数据的展现使用了阿里云的QuickBI,可以灵活的配置数据报表。整体平台的搭建,可以快速地完成。我们的统计分析日志模型是基于事件模型的,事件模型主要包括了用户和event两个实体,简单来说一个event描述了一个用户在某个地方以某种方式完成了具体的事情。用户记录和收集长期属性,形成user profile,通过ID与相关的event进行关联。我们的数据计算分成了统计类的数据,规则类的数据,机器学习类型的数据。 从日志服务加载静态数据和动态event数据,到离线仓库,通过 MaxCompute进行数据的离线计算,最后数据的标签使用PAI系统进行计算,输出的结果同步到Hologres。公司以前的数据输出到HBASE,并建立了二级索引加速,现在使用Hologres可以完美的替换。最后我们在数据应用上我们有了很多的探索,在这里给大家举一个例子,很多公司做运营活动时,都希望能促进用户的付费破冰,提升用户的付费金额,以及用户的复购率。付费破冰可以通过首充活动来实现。首充活动对用户的吸引程度主要取决于以下几点:活动的触达方式和时间是否与用户转化的时机契合,活动的形式是否符合用户偏好,活动的奖励是不是用户所需要的。我们这里对用户的首充属性进行分析,根据用户付费后的行为活动,推测不同类型的用户的付费时间点和付费动机。 了解首充用户的付费动机后,进一步和活动特性进行关联,将其使用在其他未付费用户身上,首充时间代表着用户的转化周期,在一定程度上代表了用户的转化难度,对于转化难度较高的用户,可以适当的调高奖励的成本。首冲金额代表了用户的质量,用户首次充值的金额可以推测用户的付费潜力,首充之后的消耗,反映了用户的付费动机,用户对于什么样类型的产品跟服务感兴趣,在对应的活动中,会结合以上的行为,对用户进行付费转化。 谢谢大家! 更多大数据客户实战案例:https://developer.aliyun.com/article/772449
小打卡架构师 申羡 本次分享主要有4块内容,小打卡介绍,小打卡数仓场景简介,小打卡数仓选型思路以及代表性案例分享。首先介绍一下小打卡的业务场景,小打卡是当前领先的小程序兴趣社区。在这里能快速发现你感兴趣的圈子,加入圈子,有达人带你玩转各种兴趣,有同好一起分享、一起交流、一起成长。2017年8月公司成立至今,小打卡服务了7000多万用户,聚集绘画、瑜伽、健身、摄影、亲子、阅读、潮玩等品类500多万个兴趣圈子,产生了11亿条内容,11亿次点赞,两亿次评论。每天有数百万用户活跃在小打卡上,产生TB级的数据流入数仓。在这样的场景下,数仓承载了哪些服务呢? 目前小打卡数仓主要支持的场景包括BI商业决策,数字化运营、推荐系统、监控系统等。BI方面,因为DataWorks易用性,结合小打卡业务特点,在复杂决策场景下提供多维立方体数据,业务人员通过QuickBI自由组合关心的维度、指标。简单场景,进行基础的sql培训,帮助业务人员自身闭环,基本实现全员取数分析,极大地提升了工作效率。运营方面,提供分钟级乃至实时的内容审核服务,掐断问题内容过量传播的风险。推荐方面,实现了对用户行为的完整跟踪。结合阿里云实时计算能力,近期完成了推荐系统的实时化,做到用户行为秒级反馈,实现了对前端性能错误的全链路监控,事件级别流量可信度监控,以及核心业务流程的流量波动监控等。在数仓的开发维护中,依托DataWorks完备的工具,包含运维中心,智能监控、数据质量监控、数据管理、数据地图等,以极小的代价实现了所有的需求,以个位数的开发人员满足了500万日活的产品。 在数仓选型时,我们充分调研了自建数仓和基于阿里云构建数仓的优劣。初期小打卡数据量不足100g,每日所需的计算资源不足10cu,对数仓的主要诉求是低费用成本及运维成本,开发敏捷,可扩展性高。于是从费用成本、运维成本、开发效率、灵活性等方面,做了自建数仓和依托阿里云构建数仓的调研。 费用成本方面,阿里云服务特点是初期线性,后期阶梯,初期数据量小,所需计算资源小,适合按量付费,且可以使用阿里云提供的共享资源,成本极低。中后期随着数据量的增加,按量付费的费用上升,可以选用阿里云的计算套餐,购买独享资源。此后费用阶梯化,不同的数据规模选用不同的计算套餐。自建服务,特点是初期重、后期线性,在数仓搭建初期就需要一套完整的服务,有大量的资源不是用于业务计算,费用较高,后期规模上升,需要线性的增长集群规模,费用也线性上升。 运维成本方面,阿里云服务几乎没有运维成本,集群可用性由阿里云保证,不需要自身投入运维,计算任务由可视化的运维中心,任务自动依赖。此外,阿里云可以保证数据安全,提供资源管控,数据治理等一系列的运维工具。自建服务,不管是集群还是任务,都需要较高的运维成本,需要专人持续对集群服务器进行运维,需要使用开源工具,配置任务依赖。复杂的依赖,开发效率低。此外要保证数据安全,进行资源管理等,都需要自己开发一套工具,一次性成本以及持续成本较高。 开发效率方面,阿里云服务提供线上IDE,一站式完成各种任务开发提交部署,非技术人员掌握简单的sql,也能自主取数分析,自建服务需要自己完成任务开发,调度开发、个性开发等,非技术人员很难自主取数分析。 灵活性方面,阿里云服务支持云上弹性扩缩容,灵活方便。虽然早期工具层面的API开放有限,但近期已经开放出大量的API可以灵活的对资源和任务进行操作。自建服务,背靠开源生态,可以灵活的按照自己的需求进行开发,但资源的管理不够灵活便捷,开发成本高。结合以上几点,基于阿里云构建数仓,在开发人员成本,软硬件成本都有明显的优势。从初期直到现在,基于阿里云构建的数仓服务都有极高的消费比。初期只有一个开发人员的情况下,可以快速地搭建起数仓系统,且费用成本极低。 目前每天有TB级的增量数据,数百万DAU,数千个周期任务以及多条业务线,得益于DataWorks完备的工具链,使得开发人员仅需关心业务逻辑,只需个位数的数据团队,就能支撑起全部服务。当然在这个过程中我们也遇到了一些挑战,下面分享一下在数据量突增期间,保障数仓可用性的一些经验以及总结。2月份日活突然翻了三倍,数仓整体产出时间延迟到早上10点以后,为迅速恢复数仓可用,直接将计算资源翻倍。虽然简单粗放,但效果不错,将整体产出时间提前到6:30左右,但核心任务的产出时间无法保证,高峰期计算资源利用率较低,因此必须对任务精细化管理,对资源使用率低的原因进行了定位并解决。 我们先定义了核心任务的判定规则,筛选出符合规则的任务,依托DataWorks运维中心的基线管理机制,将核心任务纳入核心基线,通过基线的优先级,保证核心任务能优先得到资源、稳定产出。高峰期资源使用率较低,是由于使用了DataWorks的默认调度资源组,属于抢占式资源,除了自身任务外,还会受到其他租户的影响,造成任务调度的不及时,不稳定。因此购买了独占式的自定义调度资源组,并将所有任务切换到自定义资源组调度,之后,核心任务可以保证稳定在2点前产出,数仓整体任务能在4:30产出完毕,但我们的数据量是周期性递增,突发性波动的,如何保证数仓可用性问题不再发生,如何保证资源充裕的同时又不过量冗余呢?一方面利用DataWorks提供的资源使用情况可视化监控,结合对数据量变化的监控,资源的使用情况做到了可感知、可预判。另一方面,结合DataWorks提供的元数据表,以及资源优化功能,启动了任务回收机制,改变了数仓任务只增不减,无效任务长期占用资源的现状,但资源组升配仍然需要人工手动操作,这样就会存在资源升级不及时的风险。希望后续可以支持自动弹性调整资源,防止数仓不可用。 下面给大家分享一下小打卡基于实时计算的推荐系统实时化。推荐系统实时化,使数仓具备了用户行为实时反馈,内容特征实时更新,ab效果实时评估,推荐内容实时安全审核,内容质量实时把关等实时化能力。从以前的只能基于一天前的用户行为数据,内容特征数据,为用户提供推荐服务,变成基于秒级延迟的用户行为数据,以及内容特征进行推荐。推荐内容风险审核,也可以从小时级10分钟级进入秒级,业务调整空间,冲破了离线统计的桎梏,可以进行更广阔的尝试。 在推荐实时化后,产品结合实时化的能力,进行了诸多尝试,经过多次迭代后,CTR从5%变成了8%~10%,实现了翻倍的提升。在实时任务开发中,为了提高任务的可用性,实现方式经历了三个阶段,以累计pv实时统计为例。第一阶段,依靠一个实时计算任务直接计算结果,一旦需要对任务重启,就需要重跑一遍历史全量数据,上游存储介质需要永久存储,追赶的时间很长,且期间提供的数据不可用。第二阶段,实时任务只计算增量部分,离线任务计算存量部分。再依靠Java服务,将两部分数据整合,开发战线拉得很长。目前也就是第三阶段,将整合增量数据以及存量数据的任务也交给了流计算处理。第一层流计算,负责计算增量数据。第二层流计算负责整合增量存量数据,也因此实时计算任务有了级联关系,但目前实时计算开发平台,将所有的任务平铺管理,在某些需要对级联任务统一运维的场景支持不太友好,希望后续可以支持可视化的依赖管理,以及级联运维的,我们能迅速尝试并落地实施数仓,得益于 Flink sql 强大的能力。 目前我们的流计算任务百分百使用 Flink sql 开发完成,暂未涉及到 Flink sql 解决不了的场景。 谢谢大家! 更多大数据客户实战案例:https://developer.aliyun.com/article/772449
本文介绍2020双11阿里云大数据产品和解决方案的优惠活动内容 面向对象: 所有阿里云的新老客户 爆款推荐: 阿里云OCR印刷文字识别1.5折起,11.1号开启 新人专享11.1-11.11 大数据指定产品新人专享冰点价,最低0.29折 二级类目 规格 双11产品折扣率 机器学习PAI P100 GPU 600元/月 30.0% MC-Hologres 1个月 13.8% Elasticsearch 通用商业版,新购1年 50.0% DataWorks 专业版1个月 4.0% 实时计算Flink 全托管版本10cu,1个月 2.9% Databricks数据洞察 指定规格1台Master节点(ecs.c5.2xlarge),3台Work节点(ecs.c5.2xlarge) 8.6% MaxCompute 标准预付费首购首月10cu 13.0% 大数据应用与可视化 标准版 30.0% Quick Audience(智能用户增长) 基础版,一个月 2.0% Quick Audience(智能用户增长) 基础版,两个月及以上(一年) 50.0% 热卖专区 11.9-11.11 针对全量用户/老用户 二级类目 规格 双11产品折扣率 机器学习PAI M40 GPU 500元/月 25% 机器学习PAI P100 GPU 800元/月,单笔订单最多买6个月,最少买1个月 40% 机器学习PAI EAS在线预测服务升级8折优惠 80% MC-Hologres 所有规格计算配置限时升级特惠享8折 80% 开放搜索 共享通用型,1年 70% 智能推荐 标准版,1年 70% 实时计算Flink 独享模式所有规格,1年 85% 大数据应用与可视化 标准版 50% 大数据应用与可视化 高级版 70% 产品组合解决方案 阿里巴巴经济体成功实践的产品组合解决方案,即插即用。 解决方案 产品组合 场景 云上数据湖 EMR-Data Lake Formation- OSS 游戏/交易/社交/内容资讯/广告/在线教育/新零售/通用企业 智能推荐解决方案 PAI+MaxCompute+Flink+AIRec 游戏/交易/社交/内容资讯/广告/在线教育/新零售/通用企业 实时离线一体化分析解决方案 DataWorks数据集成+MaxCompute+MC-Hologres+DataWorks数据开发治理&+Quick BI 游戏/交易/社交/内容资讯/广告/在线教育/新零售/通用企业 云原生全栈数仓 MaxCompute+Dataworks+Hologres 互娱/游戏分析/交易/非开源控 日志搜索分析 Elasticsearch(ELK) 游戏/交易/社交/内容资讯/广告/在线教育/新零售/通用企业 统一实时数仓 DataWorks数据集成+Flink+Hologres 在线营销/交易/风控计算 具体产品购买规则,请参考购买页面限制。 11.1号起,阿里云大数据双11会场开启。访问详情https://www.aliyun.com/1111/bigdata 专家在线答疑,钉钉扫码进群 ****
2020年11月
2020年10月
2020年09月
您好,麻烦加一下我们DataWorks大群咨询一下吧,群邀请链接: https://wx.dingtalk.com/invite-page/weixin.html?bizSource=source&corpId=dingd0cf799086f27cb135c2f4657eb6378f&inviterUid=A26F27643C000F2D94460A2FDF52346D&encodeDeptId=6B32040BBEAFAF1DE93FD50C752B256A
云市场控制台 - 已购买的服务