威胁蔓延 Hadoop集群面临勒索风险

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

2017年初,大数据生态基础软件就陷入了一场全球范围内的大规模勒索攻击。随着MongoDB、ElasticSearch等软件系统遭遇勒索攻击以外,战火已经蔓延到Hadoop集群系统,黑客删除或破坏用户数据后,利用比特币平台进行匿名勒索,称缴纳赎金以后才能提供恢复数据的方法。该事件已在全世界范围内造成了广泛的影响并给相关组织造成了严重的经济损失。

勒索事件综述:

从2016年12月27日发现一些裸奔的MongoDB用户数据被黑客删除起截至2017年2月3日根据shodan.io的统计结果显示,在中国有15046个放在公网上的MangoDB数据库,其中没有设置账户密码的占绝大部分,具体数据如下图所示:

2017年1月17日据国内某知名威胁情报预警机构对68000余个Elasticsearch进行统计分析,发现目前全球共有9750台存在勒索信息。其中此次被删除的数据达到至少500亿条,被删除数据大小至少450TB。通过对比分析,发现有大概1%的Elasticsearch使用了身份验证插件,另外有2%则关闭Elasticsearch,现在已经无法访问。目前全球中受影响最多的为美国4380台,其次是中国第二944台。法国787台,爱尔兰462台,新加坡418台。以下是Elasticsearch勒索全球分布范围:

2017年1月12日,网络专家 Naill Merrigan 就发现有黑客组织 NODATA4U 已专门锁定 Hadoop ,之后几天内就出现了 115 个受害者。另一位安全研究人员 Victor Gevers 也表示,自己已发现了126 起 Hadoop 攻击事件。

根据shodan.io的统计结果显示,在中国有8300多个Hadoop集群的50070端口暴露在公网上,如下图所示:

这些勒索攻击的攻击模式都较为相似,在整个攻击过程中并没有涉及常规漏洞,而是利用这些产品的不安全配置,轻而易举地对数据进行操作。大数据基础软件在大数据领域到底有多重要?大数据基础软件的安全为何如此脆弱?关闭相应端口、启用Kerberos等身份认证体系是不是足以应对这类攻击?

大数据基础软件与大数据:

DT时代,发展大数据产业成为国家战略,没有大数据安全就没有大数据产业发展的基础。以“Hadoop、Hbase等”为核心的基础软件由于其开源、易扩展等优势,目前已成为应用最广泛的大数据基础软件,而且短期内这种势态不会有质的改变。要保证当前大数据的安全,“Hadoop、Hbase”等基础软件的安全首当其冲。如果不采取有效的措施,类似于上述威胁大数据安全的勒索事件将会越来越频繁。

现有解决方案的弊端:

MongoDB、ElasticSearch虽然遭受攻击,但其软件本身就具备设置用户名密码的功能,只不过许多人忽略安全的重要性,没有开启。但原生Hadoop天然就没有用户名密码这样的功能,因此在面临勒索攻击的时候十分被动。默认情况下是没有面对此类问题,大多数用户想到并采用的解决办法是关闭相应端口、启用Kerberos等身份认证机制。但是仅仅只是关闭端口可能造成应用无法在互联网上提供正常的对外服务,即使只允许内网访问,Hadoop也存在通过内网破坏数据的可能性。而启用Kerberos身份认证机制的配置又极其复杂,导致许多用户无法完成。
简单异行的补充方案:

北京观数科技在2017年春节期间针对此类问题专门研发了一款免费工具“BIG DAF反勒索应急包”。该工具包可对抗目前黑客组织利用Hadoop等相关产品的不安全配置进行的勒索攻击。其作用是为Hadoop的默认访问提供了增加用户名和密码的身份验证功能,安装以后访问50070端口时,无论WebHDFS还是RPC HDFS协议,都需要输入用户名和密码验证才可以正常工作。可使用户不再担心因关闭端口造成通过互联网的正常服务中断,也无需担忧启用Kerberos等身份认证机制的繁杂配置。该方案可单独使用,也可与防火墙、Kerberos结合,进而起到更全面的防护效果。

该工具的配置十分简单,下载安装后,在gateway.properties文件中为Hadoop 添加用户名和密码:vi conf/gateway.properties

本文转自d1net(转载)

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
186 6
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
80 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
38 3
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
60 3
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
49 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
83 3
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
110 3
|
2月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
49 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
53 2
|
2月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
64 2