暂时未有相关云产品技术能力~
日拱一卒无有尽,功不唐捐终入海!
当产品运行在内部的虚拟化平台中,如openstack,也就是KVM虚拟化,创建虚拟机,但是不断增加的云端应用,增加了对硬件资源的消耗,不断的创建虚拟机,消耗了大量的硬件资源。 那么如何高效的利用硬件资源实现云服务呢
一、纯物理服务器部署特点: 部署非常慢 成本非常高 资源浪费 难于迁移和扩展 可能会被限定硬件厂商
docker 虚拟化,不是在在物理机上再去安装一个系统,而是直接启动应用级别的程序,例如启动三个tomcat,三个容器 ,对外访问后面讲解 镜像:docker的镜像其实就是模板,跟我们常见的iso镜像类似,上一个样板 容器:使用镜像常见的应用或者系统,我们称之为容器,应用的话就是tomcat nginx centos系统 都可以叫容器,容器就是一个应用, 仓库:仓库是存放镜像的地方,分为公开
Kafka将主题拆分为多个分区,不同的分区存在不同的服务器上,这样就使kafka具有拓展性,可以通过调整分区的数量和节点的数量,来线性对Kafka进行拓展,分区是一个线性增长的不可变日志,当消息存储到分区中之后,消息就不可变更,kafka为每条消息设置一个偏移量也就是offset,offset可以记录每条消息的位置,kafka可以通过偏移量对消息进行提取,但是没法对消息的内容进行检索和查询,偏移量在每个分区中是唯一的不可重复,并且它是递增的,不同分区间偏移量可以重复。
什么是k8s,解决什么问题。
存储日志数据集(HDFS)数据仓库构建(Hive)数据分区表构建数据预处理 (Spark计算引擎)-使用Zeppelin进行写SQL订单指标分析Sqoop数据导出到传统数据库(Mysql)Superset数据可视化项目架构架构方案:1、基于Hadoop的HDFS(数据存储)文件系统来存储数据2、为了方便进行数据分析,将这些日志文件的数据映射为一张一张的表,所以,我们 基于Hive(数据仓库工具)来构建数据仓库,所有的数据,都会在Hive下进行管理,提高数据处理的性能。
Apache Zeppelin是一款基于Web交互式框架,支持多种语言,Scala、SparkSQL、Markdown,SQL、Shell、Python等。可以使用Zeppelin链接SparkSQL。Zeppelin提供数据分析、数据可视化。打开浏览器 访问,xxxx:8090。Zeppelin安装和使用。一键启动集群中所有的组件。
Apache Spark是一个快速的,多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行计算,同时Spark提供SQL支持。Hive是建立在Hadoop上的数据仓库基础架构,它提供了一系列的工具,可以存储、查询、分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL查询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行。它将计算分为两个阶段,分别为Map和Reduce。
数据仓库,英文名称Data Warehouse,可简写为DW和DWH,数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据库:数据库是面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对记录进行查询、修改。数据仓库的输入方式各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库和数据仓库区别。
HDFS文件系统可存储超大文件,时效性稍差HDFS具有硬件故障检测和自动快速恢复功能HDFS为数据存储提供很强的扩展能力HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改HDFS可在普通机器上运行HDFS采用的Master/Slave架构一个HDFS集群有两个重要的角色,分别是NameNode 和DataNodeHDFS的四个基本组件:HDFS Client、NameNode、DataNode、和SecondaryNameNode1、Client就是客户端文件切分,文件上传HDFS的时候,
集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。
大数据概论和职业规划Linux服务器系统Hadoop概论HDFS分布式文件系统Hive数据仓库SparSQL指令Zepplin框架Sqoop框架Superset数据可视化大数据数仓实战-didi出行大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线。