风舒云卷,,北斗不移
能力说明:
掌握封装、继承和多态设计Java类的方法,能够设计较复杂的Java类结构;能够使用泛型与集合的概念与方法,创建泛型类,使用ArrayList,TreeSet,TreeMap等对象掌握Java I/O原理从控制台读取和写入数据,能够使用BufferedReader,BufferedWriter文件创建输出、输入对象。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明主机探测、端口扫描、服务及版本探测、操作系统探测
Naocs+Prometheus+Grafana来实现nacos监控可视化
mongo各版本添加用户命令
一.MySQL数据库 1).默认端口:3306 2).DriverClass: a).Version7及以下:com.mysql.jdbc.Driver b).Version8:com.mysql.cj.
一.国产数据库调研 Ⅰ).达梦数据库 达梦数据库管理系统是达梦公司推出的具有完全自主知识产权的高性能数据库管理系统,简称DM。达梦数据库管理系统的最新版本是8.1.0版本,简称DM8。 DM8吸收借鉴当前先进新技术思想与主流数据库产品的优点,融合了分布式、弹性计算与云计算的优势,对灵活性、易用性、可靠性、高安全性等方面进行了大规模改进,多样化架构充分满足不同场景需求,支持超大规模并发事务处理和事务-分析混合型业务处理,动态分配计算资源,实现更精细化的资源利用、更低成本的投入。
一.启停命令 ## start zookeeper ./zookeeper-3.4.14/bin/zkServer.sh start ./zookeeper-3.4.14/conf/zoo.cfg ## stop zookeeper .
dremio-dameng-connector git目录 https://github.com/beidouyunyun/dremio-dameng-connector.git 说明 工程结构 模块加载 元数据配置 代码实现 下载、编译 下载 wget https://github.
1.简述 Dremio与Drill简述 2.区别 a).数据源支持 使用最新版本Dremio 3.3.1和Drill 1.16.0Dremio3.1.3版本开始不支持HBase,将来会开源社区版HBase连接器 b).
1.Hadoop a).配置core-site.xml hadoop文件core-site.xml中配置信息如下,重启HDFS <property> <name>hadoop.proxyuser.
1.简述 Airflow Platform是用于描述,执行和监控工作流的工具。基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行;airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。
1.环境依赖 Centos7 组件 版本 Python 2.7.5 AirFlow 1.10.5 pyhton依赖库 (airflow) [bigdata@carbondata airflow]$ pip list DEPRECATION: Python 2.
1.配置数据源 可查考:Apache Drill 常用Plugins配置 2.同库关联查询 a).创建HBase表 create 'hbase_entry_index','cf1' create 'hbase_entry_second','cf1' b).
1.安装部署 TensorFlow安装部署Alluxio安装部署 SSH免密登陆 2.使用 1).创建alluxio根目录 [bigdata@carbondata alluxio-2.0.0]$ .
1.环境依赖 Centos7 组件 版本 Python 2.7.5 TensorFlow 0.14.0 pyhton依赖库 Package Version -------------------- --------- absl-py 0.
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.
一.Alluxio概述 Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 Alluxio项目源自加州大学伯克利分校AMPLab,作为伯克利数据分析堆栈(BDAS)的数据访问层。
## 1.描述 Dremio的数据反射就是用来维护源数据的物理优化,可直观理解为关系数据库中的索引;Data Reflections使用列化,压缩,排序,分区和聚合数据等技术,组织和优化Dremio查询执行引擎的数据;所以的反射数据都存在于Dremio的Reflection Store中,及如下配置.
1.安装ODBC-Connector 下载 Download For Win: dremio-connector-odbc-1.4.0 安装 Step1: 双击安装 Step2: 选择Dremio ODBC Driver Step3: 安装完成 2.
1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.
一.功能简述 Apache ZooKeeper是一种用于分布式应用程序的分布式开源协调服务;提供了命名服务、配置管理、集群管理、分布式锁、队列管理等一系列的功能 Ⅰ).角色功能 ZooKeeper主要包括leader、learner和client三大类角色,其中learner又分为follower和observer 功能描述 a).
一.简述 Apache HBase是基于Apache Hadoop的面向列的NoSQL数据库,是Google的BigTable的开源实现。HBase是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。
说明 Dremio-3.3.1支持Hive-2.1.1版本 1.Hive批量导入数据 a).创建表 ## 创建文本数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, ...
一.Dremio架构 Dremio是基于Apache calcite、Apache arrow和Apache parquet3个开源框架构建,结构其核心引擎Sabot,形成这款DaaS(Data-as-a-Service)数据即服务平台;整体体验风格与其公司开源的Apache Drill非常接近。
说明 Dremio-3.3.1支持Elasticserch-5.x和6.x;本次使用Elasticserch-6.1.2 1.Elasticserch批量导入数据 ## 导入数据 crul -H 'Content-Type: application/json' -XPOST hostname:92...
一.简述 通过TICK(Telegraf+Influxdb+Chronograf+Kapacitor)进行主机性能监控告警,职责描述如下: Telegraf的职能是数据采集,用于主机性能数据,包括主机CPU、内存、IO、进程状态、服务状态等 Influxdb的职能是时序数据库,用于存储Teleg.
1.说明 Dremio支持本地的Execl文件、Json和Text的数据分析,该案例将以本地Json文件为例,通过Dremio进行数据分析 2.上传Json文件 a).选择文件 b).预览保存 3.
1.上传数据文件 ## put execl to hdfs hdfs dfs -put test.xlxs /home/bigdata/dremio/ 2.配置HDFS数据源 a).选择 b).配置 c).
一.简述 Dremio是一款DaaS(Data-as-a-Service)数据即服务平台,可对接多类数据源来进行BI分析;数据可视化依托于Tableau、Power BI和Qlick sense三类产品。
一.安装使用 Ⅰ).安装 yum install clickhouse-client clickhouse-server Ⅱ).配置 a).clickhouse-server CLICKHOUSE_USER=username CLICKHOUSE_LOGDIR=${CLICKHOUSE_HOME.
一.配置 Ⅰ).BE vi be.conf # INFO,WARNING,ERROR,FATAL sys_log_level=INFO # ports for admin,web,heartbeat service be_port=9060 be_rpc_port=9070 webserver_.
一.简述 Apache Superset是一款由Airbnb开源的“现代化的企业级BI(商业智能)的Web应用程序”,其通过创建和分享Dashboard,为数据分析提供了轻量级的数据查询和可视化方案。
一.说明 将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用,在此场景中需要将mysql导出的avro数据格式转化为json入库HBase 二.开拔 Ⅰ).配置ExecuteSQLRecord a).
一.说明 在大数据平台的业务场景中,处理实时kafka数据流数据,以成为必要的能力;此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 测试使用了kafka0.
一.简述 Apache NiFi是一个易用、强大、可靠的数据处理与分发系统,Apache NiFi的设计目标是自动化管理系统间的数据流Apache NiFi是美国国家安全局(NSA)开发和使用了8年的一个可视化、可定制的数据集产品。
一.大数据平台测试简述 大数据平台测试包括2部分:基础能力测试和性能测试 Ⅰ).基础能力测试 大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持 大数据平台是否能够通过界面的形式方便用户进行非运行维护,主要包括集群的安装、监控、配置、操作等 大数据平台是否能够提供基本的安全方案 a).
一.Apache Druid简述 Apache Druid是MetaMarket公司研发,专门为做海量数据集上的高性能OLAP(OnLine Analysis Processing)而设计的数据存储和分析系统,目前在Apache基金会下孵化。
一.集群配置 二.角色分布 三.集群版本 四.性能测试 Ⅰ).数据时效性测试 a).测试案例 模拟生产由5000个agent、5000个URL和2类请求方式做为聚合字段的1亿条明细数据,来测试Druid集群在配置不同TaksCount数时,Druid聚合任务的执行时长 明细数据:1亿...
一.简述 Nmon是一款计算机性能系统监控工具,因为它免费,体积小,安装简单,耗费资源低,广泛应用于AIX和Linux系统。nmon的使用需要2部分:nmon采集数据和nmon_analyzer可视化分析数据 二.
1.download apache carbondata - 1.5.3apache carbondata - 1.5.4apache spark - 2.3.2apache hadoop - 2.7.
一.简述 Apache Doris是由百度的Palo项目开源而来,整体架构分为两层:多个 FE 组成第一层,提供 FE 的横向扩展和高可用;多个 BE 组成第二层,负责数据存储于管理。 FE 节点分为 follower 和 observer 两类。
一.简述 Apache Druid已有的扩展模块很多包括:HDFS存储使用的druid-hdfs-storage,Kafka数据接入使用的druid-kafka-indexing-service,将MySQL做为元数据库使用的mysql-metadata-storage,数据排重使用的druid-datasketches;但有时这些也无法满足我们实际应用场景下的特殊需求,那么必要的二次开发增加自定义的模块就成了必然。
一.任务配置文件 使用类型为kafka { "type": "kafka", "dataSchema": { "dimensionsSpec": {... ...}, "transformSpec":{.
思维导图 根据自己学习理解,梳理一版数据中台涉及内容 概括来说 实现数据的分层与水平解耦,抽象通用的数据能力;个人理解,数据中台在数仓基础上增加数据加工、数据服务能力。 涉及技术 数据采集 数据计算 数据存储 数据加工 统一的数据口径
1.导入carbondata依赖的jar包 将apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.7.2.jar导入$SPARKHOME/jars;或将apache-carbondata-1.
1.查看topic详细信息 ./kafka-topics.sh -zookeeper ip:port -describe -topic topicname kafka/bin/kafka-topics.
一.简述 通过对Yarn ResourceManager中运行程序的状态(RUNNING、KILLED、FAILED、FINISHED)以及ApplicationMaster中Application的Job执行时长超过批次时间的监控,来达到对Spark on Yarn程序的失败重启、超时重启等功能 二.
BigData-Alpha-0.1.0 备注: 未增加zookeeper、Doris、CarbonData 部分归类模糊 仅供参考