Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深

本文涉及的产品
云数据库 MongoDB,通用型 2核4GB
简介: 本文讲的是Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深,直到去年,网络犯罪分子还只是针对具有支付赎金能力的个人或企业组织的计算机进行勒索攻击,但是现在,一切都悄然发生了变化,他们开始针对全球未受保护的在线数据库和服务器进行勒索攻击并索要赎金。
本文讲的是 Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深直到去年,网络犯罪分子还只是针对具有支付赎金能力的个人或企业组织的计算机进行勒索攻击,但是现在,一切都悄然发生了变化,他们开始针对全球未受保护的在线数据库和服务器进行勒索攻击并索要赎金。

今年早些时候,我们看到了很多臭名昭著且令人担忧的数据泄漏事件,其中数以万计未受保护的MongoDB和Elasticsearch数据库遭到黑客入侵并索要赎金,以交换黑客们从它们配置不当的系统中所窃取和删除的数据。

现在,网络犯罪分子又开始将目光瞄准未受保护的Hadoop Clusters和CouchDB服务器,如果您的服务器未曾进行安全地配置,那么我想这场勒索游戏将会变得更加糟糕。

Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深

根据使用Shodan搜索引擎进行的分析结果发现,配置Hadoop分布式文件系统(HDFS,Hadoop应用程序使用的主要分布式存储)的近4500台服务器,已经暴露了超过5120TB(5.12PB)的数据。

此次泄漏事件也是出于一个相同的问题——基于HDFS的服务器(主要是Hadoop安装)缺乏安全配置。

Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深

Hadoop大数据灾难

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。像其他Hadoop相关技术一样,HDFS已经成为管理大型数据集群以及支持大数据分析应用的主要工具。

在一篇博客文章中,Shodan创始人John Matherly透露称,虽然MongoDB和Elasticsearch数据库此前发生的数据泄漏事件引发了大规模的关注和担忧,但现在事实证明,Hadoop服务器才是“真正的数据泄漏巨头”。

Matherly 进一步解释称,超过47800台MongoDB服务器仅仅泄露了25TB的数据,而总共只有4487台的 HDFS服务器却泄漏了超过5000TB的数据量。如此说来,HDFS服务器在总量少于MongoDB服务器10倍的情况下,却泄露了多出MongoDB服务器200余倍的数据量。这一结果,着实令人震惊,也算是做实了“泄漏巨头”的称号。

Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深

HDFS服务器大多位于美国和中国  

作为此次泄漏事件的主角,大多的HDFS服务器主要位于美国(1900台)和中国(1426台),其次是德国(129台)和韩国(115台)。

Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深

而其中大多数的HDFS实例主要托管在云中,亚马逊Web服务以1059个实例处于领先位置,其次是阿里巴巴,数量为507个。

去年年底至今年年初,我们发现攻击者开始有意识地针对未受保护的数据库进行勒索攻击,其中最先受难的是MongoDB和Elasticsearch数据库,Matherly表示,现在这些攻击并未停止活动,不仅危害着 MongoDB 同时也影响 CouchDB和Hadoop服务器的部署。

最后,Matherly还分享了关于如何使用Shodan搜索引擎复制检测设备的所有必要步骤,用户可以利用该搜索引擎自己着手进行调查。此外,安全专家也建议企业设备管理人员在安全模式下,按照指令说明正确地配置 Hadoop 服务器,避免给恶意攻击者可乘之机。




原文发布时间为:2017年6月5日
本文作者:小二郎
本文来自云栖社区合作伙伴嘶吼,了解相关信息可以关注嘶吼网站。
相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
目录
相关文章
|
分布式计算 资源调度 Hadoop
Hadoop运行模式(五)、编写Hadoop集群常用脚本、Hadoop集群启停脚本、常用端口号说明、集群时间同步、时间服务器配置、其他机器配置
Hadoop运行模式(五)、编写Hadoop集群常用脚本、Hadoop集群启停脚本、常用端口号说明、集群时间同步、时间服务器配置、其他机器配置
Hadoop运行模式(五)、编写Hadoop集群常用脚本、Hadoop集群启停脚本、常用端口号说明、集群时间同步、时间服务器配置、其他机器配置
|
分布式计算 安全 大数据
还在用Hadoop么?Hadoop服务器造成5PB数据泄露,中国、美国受波及最大!
根据John Matherly的说法,不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。 这位专家说,他发现了4487个HDFS服务器实例,这些服务器可通过公共IP地址获得,而且不需要身份验证。
4216 0
|
13天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
13天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
15天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
55 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop