• 关于

    流式分析

    的搜索结果

回答

阿里云实时计算提供标准的Flink SQL语义可以协助您完成流式计算逻辑的处理,但无法满足某些特定场景的业务需求。阿里云实时计算为部分授信用户提供全功能的UDF函数,帮助授信用户完成业务定制化的数据处理需求。所以,在流数据分析领域,您可以直接使用Flink SQL+UDF即可完成大部分流式数据分析处理逻辑。 • 实时计算更擅长于进行流式数据分析、统计和处理。 • 实时计算不适合于SQL不能够解决的领域。例如,复杂的迭代数据处理和复杂的规则引擎告警。
LiuWH 2020-03-22 17:06:24 0 浏览量 回答数 0

问题

MaxCompute用户指南:数据上传下载:DataHub实时数据通道

DataHub 是 MaxCompute 提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅 (Subsc...
行者武松 2019-12-01 22:02:07 1251 浏览量 回答数 0

回答

离线分析目前主要还是采取hadoop来分析的。主要分为ETL、机器学习ETL一般采取Hive、MR机器学习已经采取spark mllib实时分析这个主要看你的场景一般分为:动态的流式计算一般用流式框架,如:sparkStreaming、strom等静态数据数据的实时查询或者分析 Hbase、Phoenix、kylin等目前E-MapReduce都直接提供或者通过引导安装这些软件的希望能帮助到您。
封神 2019-12-02 01:38:52 0 浏览量 回答数 0

Quick BI 数据可视化分析平台

2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

问题

什么是阿里云实时计算 Flink?

AliCloud RealtimeCompute Flink (阿里云实时计算 Flink)是运行在阿里云平台上的流式大数据分析平台,是为您在云上进行流式数据实时化分析的工具。...
李博 bluemind 2019-12-01 20:26:50 731 浏览量 回答数 1

回答

使用阿里云Flink SQL,您可以轻松搭建自己的流式数据分析和计算服务,彻底规避掉底层流式处理逻辑的繁杂重复开发工作。利用阿里云实时计算 Flink提供的全链路流式数据开发套件,您可以享受到从数据集成、数据加工、数据运维全流程一站式解决方案,最大化实时化自身业务。
李博 bluemind 2019-12-02 01:42:41 0 浏览量 回答数 0

回答

阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。DataHub服务可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理。您可以编写应用程序或者使用实时计算引擎来处理写入到DataHub的流式数据,比如:实时web访问日志、应用日志、各种事件等,并产出各种实时的数据处理结果,比如:实时图表、报警信息、实时统计等。 DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点。DataHub与阿里云实时计算引擎Realtime Compute无缝连接,您可以轻松使用SQL进行流数据分析。 DataHub服务也提供分发流式数据到各种云产品的功能,目前支持分发到MaxCompute(原ODPS),OSS等。 系统整体功能图,如下所示:
LiuWH 2020-03-23 11:02:10 0 浏览量 回答数 0

问题

阿里云实时计算 Flink适用场景?

阿里云实时计算 Flink提供类标准的Flink SQL语义协助用您完成流式计算逻辑的处理。同时,受限于SQL代码功能无法满足某些特定场景的业务需求,阿里云实时计算 Flink为部分授信用户提供全功能的UDF函数,帮助授信用户完成业务定制化...
李博 bluemind 2019-12-01 20:26:52 656 浏览量 回答数 1

问题

阿里云实时计算 Flink提供的编程接口是什么?如何编写流式数据处理逻辑?

阿里云实时计算 Flink提供Flink SQL编写业务逻辑,为流式数据分析定制多种数据处理函数和操作符。...
李博 bluemind 2019-12-01 20:26:48 522 浏览量 回答数 1

回答

批量计算目前绝大部分传统数据计算和数据分析服务均是基于批量数据处理模型: 使用ETL系统或者OLTP系统进行构造数据存储,在线的数据服务(包括Ad-Hoc查询、DashBoard等服务)通过构造SQL语言访问上述数据存储并取得分析结果。这套数据处理的方法论伴随着关系型数据库在工业界的演进而被广泛采用。但在大数据时代下,伴随着越来越多的人类活动被信息化、进而数据化,越来越多的数据处理要求实时化、流式化,当前这类处理模型开始面临实时化的巨大挑战。传统的批量数据处理模型传统的批量数据处理通常基于如下处理模型: 使用ETL系统或者OLTP系统构造原始的数据存储,以提供给后续的数据服务进行数据分析和数据计算。即下图,用户装载数据,系统将根据自己的存储和计算情况,对于装载的数据进行索引构建等一系列查询优化工作。因此,对于批量计算,数据一定需要预先加载到计算系统,后续计算系统才在数据加载完成后方能进行计算。 系统主动发起一个计算作业(例如MaxCompute的SQL作业,或者Hive的SQL作业)并向上述数据系统进行请求。此时计算系统开始调度(启动)计算节点进行大量数据计算,该过程的计算量可能巨大,耗时长达数分钟乃至于数小时。同时,由于数据累计的不可及时性,上述计算过程的数据一定是历史数据,无法保证数据的”新鲜”。您可以根据自己需要随时调整计算SQL,甚至于使用AdHoc查询,可以做到即时修改即时查询。 计算结果返回,计算作业完成后将数据以结果集形式返回给您,或者可能由于计算结果数据量巨大保存着数据计算系统中,您进行再次数据集成到其他系统。一旦数据结果巨大,整体的数据集成过程漫长,耗时可能长达数分钟乃至于数小时。 批量示意图 批量计算是一种批量、高时延、主动发起的计算。 您使用的批量计算的顺序是: 预先加载数据。 提交计算作业,并且可以根据业务需要修改计算作业,再次提交作业。 计算结果返回。 实时计算不同于批量计算模型,实时计算更加强调计算数据流和低时延,实时计算数据处理模型如下: 使用实时数据集成工具,将数据实时变化传输到流式数据存储(即消息队列,如DataHub);此时数据的传输变成实时化,将长时间累积大量的数据平摊到每个时间点不停地小批量实时传输,因此数据集成的时延得以保证。 此时数据将源源不断写入流数据存储,不需要预先加载的过程。同时流计算对于流式数据不提供存储服务,数据是持续流动,在计算完成后就立刻丢弃。 数据计算环节在流式和批量处理模型差距更大,由于数据集成从累积变为实时,不同于批量计算等待数据集成全部就绪后才启动计算作业,流式计算作业是一种常驻计算服务,一旦启动将一直处于等待事件触发的状态,一旦有小批量数据进入流式数据存储,流计算立刻计算并迅速得到结果。同时,阿里云流计算还使用了增量计算模型,将大批量数据分批进行增量计算,进一步减少单次运算规模并有效降低整体运算时延。 从用户角度,对于流式作业,必须预先定义计算逻辑,并提交到流式计算系统中。在整个运行期间,流计算作业逻辑不可更改!用户通过停止当前作业运行后再次提交作业,此时之前已经计算完成的数据是无法重新再次计算。 不同于批量计算结果数据需等待数据计算结果完成后,批量将数据传输到在线系统;流式计算作业在每次小批量数据计算后可以立刻将数据写入在线/批量系统,无需等待整体数据的计算结果,可以立刻将数据结果投递到在线系统,进一步做到实时计算结果的实时化展现。 实时示意图 实时计算是一种持续、低时延、事件触发的计算作业。您使用实时计算的顺序是: 提交实时计算作业。 等待流式数据触发实时计算作业。 计算结果持续不断对外写出。 模型对比下表给出了实时计算与批量计算两类计算模型的差别: 对比指标 批量计算 实时计算数据集成方式 预先加载数据 实时加载数据实时计算使用方式 业务逻辑可以修改,数据可重新计算 业务逻辑一旦修改,之前的数据不可重新计算(流数据易逝性)。数据范围 对数据集中的所有或大部分数据进行查询或处理。 对滚动时间窗口内的数据或仅对最近的数据记录进行查询或处理。数据大小 大批量数据。 单条记录或包含几条记录的微批量数据。性能 几分钟至几小时的延迟。 只需大约几秒或几毫秒的延迟。分析 复杂分析。 简单的响应函数、聚合和滚动指标。在大部分大数据处理场景下,受限于当前实时计算的整个计算模型较为简单,实时计算是批量计算的有效增强,特别在于对于事件流处理时效性上,实时计算对于大数据计算是一个不可或缺的增值服务。
李博 bluemind 2019-12-02 01:42:38 0 浏览量 回答数 0

回答

spark是基于DAG,有cache的管理,原生就长在内存计算上的,其上支持 内存计算、流式计算、图计算、SQL等功能,这些又是在一套core上,互相之间可以交叉使用。还包含了丰富的API,RDD api、dataframe、dataset等。支持java、scala、python、R语言。是数据分析处理的一大利器。hadoop mr是基于map-reduce的,相对spark开发较早,稳定性较好,做数据清洗时能获取比较大的吞吐量。hadoop tez是基于DAG的,比spark应该晚点,以后作为hadoop hive的可选引擎之一。所以:ETL:hadoop mr/tez机器学习:spark mllib流式计算(s以上):spark streaming流式计算(s以下):storm图分析:spark graphx需要cache数据的,使用spark使用hive:则hadoop/tez使用SQL,可以尝试用spark sql,使用hive相对稳定一些更加宏观的可以参考文章:https://yq.aliyun.com/articles/15306?spm=0.0.0.0.v2fm6G
封神 2019-12-02 01:46:15 0 浏览量 回答数 0

回答

下面从用户和产品层面来理解两类计算方式的区别。 • 批量计算 批量计算是一种批量、高时延、主动发起的计算。目前绝大部分传统数据计算和数据分析服务均是基于批量数据处理模型:使用ETL系统或者OLTP系统进行构造数据存储,在线的数据服务(包括Ad-Hoc查询、DashBoard等)通过构造SQL语言访问上述数据存储并取得分析结果。这套数据处理的方法论伴随着关系型数据库在工业界的演进而被广泛采用。传统的批量数据处理模型如下图所示。 i. 装载数据 对于批量计算,用户需要预先将数据加载到计算系统,您可以使用ETL系统或者OLTP系统装载原始数据。系统将根据自己的存储和计算情况,对于装载的数据进行一系列查询优化、分析和计算。 ii. 提交请求 系统主动发起一个计算作业(例如MaxCompute的SQL作业,或Hive的SQL作业)并向上述数据系统进行请求。此时计算系统开始调度(启动)计算节点进行大量数据计算,该过程的计算量可能非常大,耗时长达数分钟乃至于数小时。由于数据累计处理不及时,上述计算过程中可能就会存在一些历史数据,导致数据不新鲜。 说明 您可以根据业务需要随时调整计算SQL后再次提交作业,您甚至可以使用AdHoc查询做到即时修改即时查询。 iii. 返回结果 计算作业完成后将数据以结果集形式返回给用户,由于保存在数据计算系统中的计算结果数据量巨大,需要用户再次集成数据到其他系统。一旦数据结果巨大,整体的数据集成过程就会漫长,耗时可能长达数分钟乃至于数小时。 • 实时计算 实时计算是一种持续、低时延、事件触发的计算作业。相对于批量计算,流式计算整体上还属于比较新颖的计算概念。由于当前实时计算的计算模型较为简单,所以在大部分大数据计算场景下,实时计算可以看做是批量计算的增值服务,实时计算更强调计算数据流和低时延。实时计算数据处理模型如下。 i. 实时数据流 使用实时数据集成工具,将实时变化的数据传输到流式数据存储(例如消息队列、DataHub)。此时数据的传输实时化,将长时间累积的大量数据平摊到每个时间点,不停地小批量实时传输,因此数据集成的时延得以保证。 源源不断的数据被写入流数据存储,不需要预先加载的过程。同时,流计算对于流式数据不提供存储服务,数据持续流动,在计算完成后就被立刻丢弃。 ii. 提交流式任务 批量计算要等待数据集成全部就绪后才能启动计算作业,而流式计算作业是一种常驻计算服务。实时计算作业启动后,一旦有小批量数据进入流式数据存储,流计算会立刻计算并得出结果。同时,阿里云流计算还使用了增量计算模型,将大批量数据分批进行增量计算,进一步减少单次运算规模并有效降低整体运算时延。 从用户角度,对于流式作业,必须预先定义计算逻辑,并提交到流式计算系统中。在整个运行期间,流计算作业逻辑不可更改。用户通过停止当前作业运行后再次提交作业,此时之前已经计算完成的数据是无法重新再次被计算。 iii. 实时结果流 不同于批量计算,结果数据需等待数据计算结果完成后,批量将数据传输到在线系统。流式计算作业在每次小批量数据计算后,无需等待整体的数据计算结果,会立刻将数据结果投递到在线/批量系统,实现计算结果的实时化展现。 使用实时计算的顺序如下: iv. 提交实时计算作业。 v. 等待流式数据触发实时计算作业。 vi. 计算结果持续不断对外写出。 计算模型差别对比。
LiuWH 2020-03-22 17:01:33 0 浏览量 回答数 0

回答

阿里云实时计算 Flink提供Flink SQL编写业务逻辑,为流式数据分析定制多种数据处理函数和操作符。以Word Count统计为例,下面给出一个具体的SQL例子。-- 声明一个流式源表 create table stream_source(word string) ; -- 声明一个目标表 create table stream_result(word string, cnt bigint) ; --统计word次数 insert into stream_result select t.word, count(1) from stream_source t group by t.word;
李博 bluemind 2019-12-02 01:42:39 0 浏览量 回答数 0

问题

听云平台RUM业务数据的实时流式处理实践

听云任燕萍在2017APMcon中国应用性能管理大会上做了题为《听云平台RUM业务数据的实时流式处理实践》的分享,就听云业务架构,听云Network 概述,听云APP 概述做了深入的分析。 ht...
福利达人 2019-12-01 21:09:46 492 浏览量 回答数 0

问题

【精品问答】DataHub

阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅 (Subscribe)和分发功能,让您可以轻松构建基于流式数据...
montos 2020-04-08 14:45:22 2 浏览量 回答数 1

问题

千亿特征流式学习在大规模推荐排序场景的应用

阿里巴巴高级技术专家陈绪在2017杭州云栖大会中做了题为《千亿特征流式学习在大规模推荐排序场景的应用》的分享,就电商个性化推荐,算法和技术挑战,PAI平台解决方案,框架和算法调优做了深入的分析。 ...
福利达人 2019-12-01 21:20:13 477 浏览量 回答数 0

问题

云数据库 HBase版的应用场景

应用场景 ApsaraDB for HBase的使用场景比较广泛,以至于很多客户无法把握他。以下我们大致列下,适合的场景: HBase的设计之初是为了存储互联网,[backco...
云栖大讲堂 2019-12-01 21:31:12 1243 浏览量 回答数 0

问题

表格存储的应用场景

大数据存储与分析 表格存储提供低成本、高并发、低延时的海量数据存储与在线访问,提供增量以及全量数据通道,并支持 MaxCompute 等大数据分析平台的 SQL 直读直写。高效的增量流式读接口让数据轻松完成实...
云栖大讲堂 2019-12-01 20:53:55 1447 浏览量 回答数 0

回答

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。使用SparkStreamingSQL,并结合Redis可以很方便进行PV/UV的统计。本文将介绍通过StreamingSQL消费Loghub中存储的用户访问信息,对过去1分钟内的数据进行PV/UV统计,将结果存入Redis中。
爱吃鱼的程序员 2020-12-28 11:38:47 0 浏览量 回答数 0

回答

• 强大的实时处理能力 阿里云实时计算集成诸多全链路功能,方便您进行全链路实时计算开发,包括: o 强大的流计算(实时计算)引擎。  阿里云实时计算提供Flink SQL(详情请参见Flink SQL概述),支持各类错误场景的自动恢复,保证故障情况下数据处理的准确性。  支持多种内置函数,包括:字符串函数、日期函数、聚合。  精确的计算资源控制,高度保证您的作业的隔离性。 o 关键性能指标为开源Flink的3到4倍。数据计算延迟优化到秒级甚至亚秒级。单个作业吞吐量可达到百万(记录/秒)级别,单集群规模达到数千台。 o 深度整合各类云数据存储。阿里云实时计算可以直接读写包括数据总线DataHub、日志服务LOG、云数据库RDS版、表格存储TableStore、分析型数据库MySQL版在内的各类数据存储系统,无需进行额外的数据集成工作。 • 托管的实时计算服务 不同于开源或者自建的流式处理服务,阿里云实时计算是完全托管的流式计算引擎。阿里云可以针对流数据运行查询,无需预置或管理任何基础设施。在阿里云实时计算,您可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据存储、数据开发、数据运维、监控报警等功能,方便您以较小成本试用和迁移流式计算。同时,实时计算提供完全租户隔离的托管运行服务。从最上层工作空间,到最底层执行机器,提供高度有效的隔离和全面防护,让您放心使用实时计算。 • 低廉的人力和集群成本 大量优化的SQL执行引擎,提供比原生Flink作业更高效且更廉价的计算作业。在开发成本和运行成本方面,阿里云实时计算均要远低于开源流式框架。例如,项目预算时您需要考虑如下成本: o 编写一个复杂业务逻辑下Flink作业Java代码的人力成本。 o 针对作业的调试、测试、调优、上线工作成本。 o 后续长期用于Flink、Zookeeper等开源软件的运维成本。 如果使用阿里云实时计算服务,上述问题交由阿里云平台承担,您可以专注于业务。
LiuWH 2020-03-22 16:57:39 0 浏览量 回答数 0

回答

spark做不了实时分析hbase数据的,如果查询场景简单可以使用phoenix,配合二级索引快速检索数据。SparkStreaming更多配合kafka流式写入数据到HBase。
巴客 2019-12-02 01:43:01 0 浏览量 回答数 0

回答

实时计算目前更擅长于做流式数据分析、统计、处理。实时计算不适合SQL不能够解决的领域。例如,复杂的迭代数据处理、复杂的规则引擎告警。
李博 bluemind 2019-12-02 01:42:42 0 浏览量 回答数 0

问题

HPE Vertica and Sparkitecture

在SPARK SUMMIT 2016上,Myles Collins分享了题为《HPE Vertica and Sparkitecture》,就Apache Kafka + Spark + HPE ...
福利达人 2019-12-01 21:24:36 384 浏览量 回答数 0

回答

mongodb存的是json格式的数据,如果要存储到关系数据库中,建议使用PostgreSQL,PostgreSQL原生支持JSON,jsonb。还有非常丰富的统计功能,例如窗口查询,聚合,机器学习,文本分析,流式计算。
德哥 2019-12-02 01:42:35 0 浏览量 回答数 0

问题

什么是流式处理,能解决什么问题?

目前对信息高时效性、可操作性的需求不断增长,这要求软件系统在更少的时间内能处理更多的数据。传统的大数据处理模型将在线事务处理和离线分析从时序上将两者完全分割开来,但该架构目前已经落后于人们对于大数据实时处理的需求。...
李博 bluemind 2019-12-01 20:26:50 2207 浏览量 回答数 1

回答

可以参考袋鼠云为云南某金融机构搭建日志平台方案设计逻辑:通过前期调研了解数据现状,袋鼠云将整个运维数据分析平台建设的核心思想定义在通过实时采集业务运行数据(如客户交易流水、业务执行流水、日志等),以及实时系统运行数据(包括应用服务器、中间件、数据库和主机等),然后通过一定的数据模型将这些数据关联起来,以业务的角度动态展示,并使用一系列算法进行在线和离线分析,并使系统根据分析结果进行自动化处理,从而达到将企业业务运行状况和IT资源协同监控和管理的目的。整个系统工作的逻辑过程如下:首先是数据采集服务器从业务系统和其对应的IT资源中,实时获取相应的运行状态数据,经过预处理之后,向两个方向发送:一个方向是监控分析服务器,在其中对数据进行实时处理,主要是报表引擎对数据进行格式化之后,产生动态报表,业务规则引擎判断数据是否具有某种特点从而激活对应的业务规则;另一个方向是将这些原始数据存储在适合流式数据的数据库中,并结合相应的管理数据,由数据分析引擎进行更为全面和复杂的数据分析。系统提供一个 web 应用界面,使得监控人员、管理人员和数据分析人员能够通过标准的IE 浏览器访问应用。这一套逻辑很有参考价值,可以学习参考。
1603144775638512 2019-12-02 01:48:51 0 浏览量 回答数 0

回答

E-MapReduce 集群适用多种使用场景,同时支持Hadoop ecosystem和Spark能够支持的所有场景。 E-MapReduce 本质是 Hadoop 和 Spark 的集群服务,您完全可以将其使用的阿里云 ECS 主机视为自己专属的物理主机。以下示例列出了 E-MapReduce 使用的经典场景。 批量数据处理 Ad hoc 数据分析查询 海量数据在线服务 流式数据处理
LiuWH 2020-03-20 09:37:46 0 浏览量 回答数 0

问题

Auto Scaling Systems With Elastic Spark Streaming

在SPARK SUMMIT 2017上,PhuDuc Nguyen Consulting Engineer分享了题为《Auto Scaling Systems With Elastic Spark Streaming》...
福利达人 2019-12-01 21:24:39 332 浏览量 回答数 0

回答

X-Pack Spark集群是通过外部计算资源的方式,为HBase服务提供复杂分析、流式处理及入库、机器学习的能力,解决大数据量及物联网等场景问题。 看几个阿里云官方实战案例学习一下:《有赞Hive迁移到Spark》《Spark广告点击系统实时统计》《HBase+Spark在游戏领域的大数据实践》 新手可以看看《Spark入门手册》
游客r57vgirfuxsa2 2019-12-02 02:09:58 0 浏览量 回答数 0

回答

下面是StuQ 发布的大数据工程师技能图谱(仅供参考)大数据通用处理平台SparkFlinkHadoop分布式存储HDFS资源调度YarnMesos机器学习工具MahoutSpark MlibTensorFlow (Google 系)Amazon Machine LearningDMTK (微软分布式机器学习工具)数据分析/数据仓库(SQL类)PigHivekylinSpark SQL,Spark DataFrameImpalaPhoenixELK8.1 ElasticSearch8.2Logstash8.3Kibana消息队列Kafka(纯日志类,大吞吐量)RocketMQZeroMQActiveMQRabbitMQ流式计算Storm/JStormSpark StreamingFlink日志收集ScribeFlume编程语言JavaPythonRRubyScala数据分析挖掘MATLABSPSSSAS数据可视化RD3.jsEChartsExclePython机器学习机器学习基础聚类时间序列推荐系统回归分析文本挖掘决策树支持向量机贝叶斯分类神经网络机器学习工具MahoutSpark MlibTensorFlow (Google 系)Amazon Machine LearningDMTK (微软分布式机器学习工具)算法一致性paxosraftgossip数据结构栈,队列,链表散列表二叉树,红黑树,B树图常用算法1.排序插入排序桶排序堆排序2.快速排序3,最大子数组4.最长公共子序列5.最小生成树最短路径6.矩阵的存储和运算云计算云服务SaaSPaaSIaaSOpenstackDockerEnd.掌握这些都差不多了。
51干警网 2019-12-02 00:17:52 0 浏览量 回答数 0

问题

阿里新一代实时计算引擎 Blink技术解密

阿里云资深技术专家王峰在2017杭州云栖大会中做了题为《阿里新一代实时计算引擎 Blink技术解密》的分享,就流式计算架构,Apache Flink,Alibaba BlinkBlink,应用案例做...
福利达人 2019-12-01 21:20:05 634 浏览量 回答数 0

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT