avro数据自动落入hive/hbase/es 用户可以使用sdk将avro数据发送到kafka中,kafka-connect可以将数据自动落入hive/hbase/es中
自助式申请schema 当用户需要申请schma时,只需要在schema申请平台上发起申请,审核通过后即可注册成功并生成相应jar包 平台 Compute Platform Compute Platform是一个基于Hadoop的分布式全流程开发平台,通过可视化交互式方式降低门槛、提升研发效率。 各业务可以通过平台轻松实现通用ETL,可以组合使用平台提供的算子深度定制。计算内核基于Spark、TensorFlow,缺省支持SparkMLlib、TensorFlow常用算法库,供开发者选用。同时开发者可以贡献自己的算子,分享给所有的开发者。 数据ETL 支持数据ETL处理;支持6+种数据源,覆盖MySQL,Hive,HBase,Presto,HDFS等;支持7+种数据加载,转换,提取等操作,覆盖Map,Filter,SQL,Python,Join,Split等
可视化开发 支持在线可视化编辑和开发;支持在线拖拽执行拓扑;支持在线开发Python代码;支持在线开发SQL脚本;
算子商店 缺省支持SparkMLlib、TensorFlow常用算法库,开发者可以依据接口标准实现自己的算子贡献给平台,赋能技术团队 大规模ETL 大规模ETL;业务需求;数据处理
在线可视化开发 在线可视化开发;在线开发Python代码;在线开发SQL脚本
统计分析 适用于数据统计分析等业务场景,使用算子商店提供的能力快速完成开发 大数据计算 Flink Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台,在流式处理方面具有高吞吐、低延迟、高性能的特点,支持Exactly-once语义、高度灵活的窗口操作、event time等等 快速 快,是Flink的主要特点。利用基于内存的数据流,并将迭代处理算法深度集成到系统的运行时中,这样,Flink使得系统能够以极快的速度处理数据密集型和迭代任务。
可靠 轻量级分布式快照(Snapshot)实现的容错,在流处理失败时,通过这些Snapshot可以恢复数据流处理,支持Exactly-once语义。
强大 灵活的窗口,丰富的表达能力,基于事件时间处理机制配合水位线功能可以有效地处理乱序流、解决消息延迟的问题。
易用 面向用户提供了简单的DataStream和table sql API,在无需进行任何配置的情况下,Flink就可以运行在Yarn上。 实时ETL 对事实表的每一条新增记录进行转化计算,同时join维度表来扩充记录字段,将数据清洗的延迟控制在秒以内。
实时监控报警 对重要的事件做实时处理统计,动态获取报警规则,针对报警事件进行自定义处理。
统计网站PV,UV 在大数据量下,传统数据库或者HADOOP(hbase...)的count效率都不高。使用flink对用户访问记录增量做实时的窗口计算,提供更高的吞吐和更低的延时。
风控安全管理 使用CEP自定义匹配规则用来检测无尽数据流中的复杂事件。例如在安全应用中侦测异常行为;在金融应用中查找价格、交易量和其他行为的模式。 大数据计算 Spark Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 快速 Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,实现批处理和流数据处理的高性能。与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,而基于磁盘的运算也要快10倍以上。
易用 Spark支持Java、Python和Scala的API,还支持超过80种高级算子,可以轻松构建并行应用程序。
通用 Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(通用Spark SQL)、实时流处理(通过Spark Streaming)、机器学习(通过Spark MLlib)和图计算(通过Spark GraphX)。这些不同类型的处理都可以在同一应用中无缝使用。
到处运行 Spark可以使用自带的集群模式运行,也可以在EC2、在Hadoop Yarn上、Mesos上或Kubernetes上运行,同时可以访问HDFS、Alluxio、Cassandra、HBase、Hive及其它上百种数据源中的数据。 批处理 Spark的核心提供了分布式任务调度和基本的I/O功能,提供了基本的程序抽象RDD(弹性分布式数据集)。RDD是一个可以并行操作并有容错机制的数据集合,简化了编程复杂性,操纵RDD的方法类似于操纵本地数据集合。另外Spark SQL提供了领域特定语言,可使用Scala、Java或Python来操纵DataFrame/DataSet。这些都可用于批处理。
交互式查询或执行代码 Spark Thriftserver支持使用使用命令行界面和ODBC/JDBC服务器执行SQL。而交互式的Python和Scala的Shell可以使用Spark集群来验证解决问题的方法,而不是像以前一样,需要打包、上传集群、验证等。
流式计算 Spark Streaming充分利用Spark核心的快速调度能力来运行流分析。它截取小批量的数据并对之运行RDD转换。这种设计使流分析可在同一个引擎内使用同一组为批量分析编写而撰写的应用程序代码。
机器学习 MLlib是Spark上分布式机器学习框架,可使用许多常见的机器学习和统计算法,简化大规模机器学习时间
图形处理 GraphX是Spark上的分布式图形处理框架。它提供了一组API,可用于表达图表计算并可以模拟Pregel抽象化。GraphX还对这种抽象化提供了优化运行 调度 YARN YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统。 资源管理 YARN 通过一个全局的资源管理器(Resource Manager)以及运行在集群中所有节点上的节点管理器(Node Manager)在各种竞争的应用程序之间仲裁可用的集群资源,创建资源容器。支持内存和CPU的管理与分配。
资源调度 YARN 调度器可以根据既定策略为应用程序分配资源。YARN 有三种调度器:FIFO调度器(FIFO Scheduler),容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)。
任务调度与监控 YARN 通过一个称为ApplicationMaster的轻量型进程实例来协调应用程序内的所有任务的执行。这包括监视任务,重新启动失败的任务,推测性地运行缓慢的任务,以及计算应用程序计数器值的总和。 运行各类分布式计算 MapReduce、Spark、Tez、Flink 等分布式计算程序均可以运行在YARN集群中,YARN会为它们提供统一的资源分配及调度。 调度 Airflow Airflow是一个分布式的调度引擎,功能类似 crontab + work flow 多样化调度 Airflow 可以根据配置的时间,补追历史数据,也可定义未来执行的任务
复杂workflow Airflow 可以记录每次执行的结果,实现case when ETL 可以将ETL分解成多个单一功能的小task,在airflow中配置执行逻辑顺序,增强可维护性
crontab crontab功能的增强版,方便管理,报警、日志更完善 ETL Maxwell Maxwell是一个数据库(MySQL)增量订阅工具。可解析MySQL数据增量,以相应的格式发送到kafka,供用户订阅使用。 全方位的数据库增量订阅 Maxwell可监控整个MySQL的数据增量,将数据写到kafka。
性能高效 Maxwell架构优雅、性能高效。一般情况下,从binlog产生到写入kafka,平均延迟在0.1秒之内。当MySQL端有大量数据增量产生时,Maxwell写入kafka的速率能达到7万行/秒。
运行稳定 Maxwell巧妙的设计,可有效地避免数据丢失。
支持多种消息格式 原生的Maxwell仅支持Json消息格式。大数据团队对Maxwell进行了定制化,使Maxwell支持canal格式和avro格式。avro格式的消息,可以直接接入kafka connect。 数据监控与分析 用户可消费Maxwell发送到kafka的数据,监控相应数据库的每一条数据变化,用于业务数据异常监控、业务数据分析等场景。
数据同步 Maxwell avro消息,可接入kafka connect,从而根据需求由kafka connect实时或近实时地同步其它数据库(如Hive、ES、HBase、KUDU等)中。
|