暂时未有相关云产品技术能力~
大数据技术研究|技术管理与发展|程序员
MooseFS和Hadoop两个分布式文件系统各有什么优缺点?
工程师们不断推动下的云服务架构
CentOS 7上集群化部署Apache Druid 0.22实时分析数据库
CentOS 7上集群化部署Apache Druid 0.22实时分析数据库
CentOS7下安装PostgreSQL11数据库
探索Cassandra的去中心化分布式架构
探索Cassandra的去中心化分布式架构
通俗理解大数据及其应用价值
PostgreSQL11 CDC的分布式文件采集架构实战
大数据平台的SQL查询引擎有哪些—SparkSQL
GlusterFS如何解决分布式文件系统的难题?
只会增删改查的计算机专业学生真的不适合做开发吗?
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
大数据平台的SQL查询引擎有哪些
大数据平台的SQL查询引擎有哪些
HBase与HDFS之间的WAL(HLog)存储机制答疑解惑
HDFS, Druid, Presto, Alluxio之间是什么关系?
以Struts为例,理解JAVA中Abstract的作用
什么是大数据技术?
数据库新技术那些让人眼前一亮的设计
边缘计算和大数据平台如何相结合?
InfluxDB存储数据是否需要水平拆分表?
Hadoop分布式文件系统(HDFS)会不会被淘汰?
提高软件系统设计和架构理论水平之路
学习分布式存储应该从哪几方面着手?
HBase问题答疑汇总(2021)
深入浅出:了解时序数据库 InfluxDB
HBase 与 Cassandra 架构对比分析的经验分享
HDFS/HBase技术报告·分布式数据库设计架构的全面解析
博客站的架构渐进升级优化,亿级日写量架构又是什么样呢?
Elasticsearch结合MySQL的两种架构模式对比
通俗地理解面向服务的架构(SOA)以及微服务之间的关系
「短视频」进入大数据领域的学习路线是什么?
构建互联网医疗平台的Devops应用架构
四款面向高并发、海量级分布式存储的分布式架构对比
「视频小课堂」Logstash如何成为镇得住场面的数据管道(文字版)
NewSQL分布式数据库,例如TIDB用K/V的底层逻辑
大数据热是华而不实吗?大数据和小数据有什么本质区别
「视频小课堂」ELK和Kafka是怎么就玩在一起成了日志采集解决方案文字版
微服务想用好,先把分布式和微服务之间的关系搞清楚
什么原因才是阻碍Linux桌面发展的罪魁祸首
分布式存储单主、多主和无中心架构的特征与趋势
理解「分布式系统」曾经发生的事情
博客数据库要连接Elasticsearch,使用MySQL还是MongoDB更合理
建立大数据技术体系学习的新思维
很多人容易将分布式存储和分布式文件系统的概念搞混,我先做一个概念上的梳理:分布式存储所涵盖的范围极广,例如NFS,虽然只是用于目录共享的网络文件系统,但是它也属于分布式存储范畴,再比如说分布式对象存储,例如Ceph体系不仅包括了分布式文件系统CephFS,也包括了Ceph分布式对象存储,它们都属于分布式存储范围。最关键的一个特征就是模拟了本地文件系统的目录层次,这对于文件在虚拟目录中的移动,管理具有很好的优势,首先这个优势是分布式对象存储等无法做到的。
这个事情发生在两年前,是某丰的工程师,根据网上披露的信息,大体情况是这样:首先工程师接到了需求变更的任务工单,需要进行数据库SQL执行操作,并事先准备好了SQL的脚本。接下来通过登陆跳板机就进入到了生产数据库的管理端,然后运行Navicat-MySQL的客户端管理工具。这时候问题出现了,他发现自己选择错了数据库,但是SQL脚本已经粘贴上准备执行了,所以他的目的是按delete键删除选定的执行SQL语句,可是万万没想到鼠标光标跳到了数据库实例上面,这时候的delete键就是删除数据库实例了,结果这位工程师还不看弹出框的提醒,直接按了回车键。最后的结果那就是运营监控管控平台挂了!故障持续了10小时
HBase和Cassandra几乎都是一个时候出现的,都是在2010年成为Apache的顶级项目,不过如果我们细品其内部机制,我们会发现其实两者是完全不同的架构风格。HBASE起源于Google BigTable,几乎遵从了BigTable论文的大多数架构设计。Cassandra则是采纳了BigTable的数据模型,同时吸收了Amazon Dynamo的分布式设计。因此从存储结构模型的微观上看,HBASE和Cassandra在单点存储数据的机理是类似的,但是从分布式架构的宏观上看,两者则大相径庭。
最早Google发明了GFS分布式文件系统,之后对应的开源项目就是鼎鼎大名的Hadoop HDFS。 GFS/HDFS的特点表现在顺序的、成块的、无索引的向文件块中写入数据,并在集群环境中按块(block)均匀分布存储,使用时再根据MapReduce、Spark的并行任务,按块批次的读取分析。这样就把写入和并行读取的性能发挥到了极致,具备了任何建立索引的数据库都无法比拟的读写速度。