大数据平台安全建设方案分享

本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
随着国家提出大数据促进经济社会转型发展的战略思路,大数据平台建设目前已经是政务信息化建设中的焦点内容,各省级政府依托强大的信息化体系率先做出尝试。大数据平台业务系统搭建之初,作为整个平台稳定、持续运行的基础,安全建设方案会是整个平台项目中重要的一环。


大数据平台整体安全建设,从数据采集到数据资产的梳理,再到平台的访问安全管控和数据存储安全,以及数据共享分发过程中的版权保护,整个安全方案如何形成数据访问和使用过程的闭环,并且能够实现安全策略的统一下发和协同配合,是摆在平台建设方面前的棘手问题,本文以某大数据平台安全建设方案为参考,抛砖引玉,共同探讨行之有效的安全建设思路,该方案已经初步得到建设方认可,具备可落地基础。


安全建设完整思路


1 信息资源梳理建设业务需求:数据梳理

在进行安全建设之初,针对需要保护的信息资源,需要先进行状况摸底:

1)提供对部门的组织结构、业务角色、信息资源类别、信息化系统等的管理和维护功能;

2)能够对业务流程图和数据流程图进行管理,能够识别协同关系和信息共享需求,能够明确职责、挖掘、整合数据资源、规范数据表示;

3)能够对数据库的主题库、逻辑实体、实体关系图、数据映射图、数据元标准、信息分类编码进行管理。


技术实现:数据库漏扫、数据资产梳理

数据库漏扫:实现对数据库系统的自动化安全评估,能够有效暴露当前数据库系统的安全问题,对数据库的安全状况进行持续化监控。利用数据库漏扫产品覆盖传统数据库漏洞检测项;实现弱口令扫描、敏感数据发现、危险程序扫描、渗透测试等高端检测能力;通过预定义安全策略、自定义安全策略,实现高效、有针对性的安全状况扫描检测,和通过各种角度、各种专题、详略不一的报表直观呈现数据库系统的安全状况样貌。


数据资产梳理:实现数据资产的“静态+动态”梳理

静态梳理:实现数据库自动嗅探:自动搜索企业中的数据库,可指定IP段和端口的范围进行搜索,自动发现数据库的基本信息;按照敏感数据的特征或预定义的敏感数据特征对数据进行自动识别,持续发现敏感数据;根据不同数据特征,对常见的敏感数据进行分类,然后针对不同的数据类型指定不同的敏感级别。


动态梳理:对平台数据库系统中不同用户、不同对象的权限进行梳理并监控权限变化。监控数据库中用户的启用状态、权限划分、角色归属等基本信息;归纳总结用户访问情况,尤其针对敏感对象,能够着重监测其访问权限划分情况。数据流转梳理,对数据应用程序、运维工具、脚本等程序和人员对敏感数据的操作进行监控和分析,形成敏感数据内部流转路线图,展示敏感数据是如何被处理和流转的;监控异常流转情况,及时发现数据违规使用风险。


综上,通过安全风险扫描、检测和资产梳理可以明确信息资源的出口、入口,数据间关系,摸清各部门的业务需求、数据需求和集成需求,能够提供信息资源的文档的自动化生成(数据库设计文档、信息资源目录、实体关系图等),以及通过思维导图等方式展示信息资源。




2 政务、互联网数据采集业务需求:采集过程中的数据共享

各政府职能单位信息汇聚采集(公安、民政、人社等)、互联网入口公众信息采集(政府网站、微信、社会学术库、企业信息等场景需求下,需要共享数据,但敏感数据不能全部开放。


技术实现1:动态脱敏

将动态脱敏系统部署在数据的共享、交换、应用、运维区,与数据库之间;形成自动化的敏感数据匿名化边界,防止隐私数据在未经脱敏的情况下从数据区流出。


048354cb43ee357be17d8efde542b13b72c2501a


提供基于数据库访问来源IP、数据库应用系统、应用系统账户、时间等因素的策略,对需要共享的敏感数据,可根据数据的敏感级别和应用的需要,灵活的配置动态脱敏策略,从而实现外部应用能够安全可控的使用共享的敏感数据,防敏感数据泄露。根据不同数据特征,内置丰富高效的动态脱敏算法,包括屏蔽、变形、替换、随机;支持自定义脱敏算法,用户可按需定义。


技术实现2:数据脱敏(静态)

数据脱敏(静态):利用对数据的静态脱敏技术,有效防止大数据平台内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下流出。既满足隐私数据保护,又满足开发、测试、模型训练等业务对数据的需求,同时也保持监管合规,满足企业合规性。




3 大数据平台管控(基础、服务)业务需求:大数据平台的统一资源管控

大数据平台的数据使用管控需要实现资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。


技术实现:数据库审计、数据库防火墙、安全运维管控

数据库审计:通过对访问数据库的所有网络流量进行采集、解析、过滤、分析和存储,全面的审计所有对数据库的处理行为,满足大数据平台对数据处理进行监控、收集和记录的需求。


数据库防火墙:将数据库防火墙部署在应用系统和数据库之间,能够防护由于WEB应用漏洞、应用框架漏洞等原因造成的黑客攻击数据库,窃取敏感数据;确保大数据平台核心数据资产的共享安全。


数据库安全运维系统:基于角色管理的细粒度的数据库运维控制功能,精确到SQL语句,确保核心数据资产的合规使用;针对不同的数据库用户,提供操作权限、访问控制,限制NO WHERE更新和删除,避免大规模数据泄露和篡改;提供双因素鉴别和登录控制能力,防止数据库账户泄漏和滥用;提供用户权限细粒度管理,对敏感数据的操作进行严格管控;控制和审计动作、全面精细审计分析,提供实时访问统计图。




4 大数据存储安全加固业务需求:存储安全

对于落地到大数据平台的数据资源,除了访问管控,需要对其中高密级数据增加存储加固手段,作为数据安全防护的底线。


技术实现:数据库加密

强化大数据平台数据安全,实现整体数据安全加固,防止数据外泄。加强对敏感数据的加密访问和存储,敏感数据呈现中对关键字段进行加密。安华金和的数据库加密产品DBCoffer可以针对表空间实现表空间级加密,对表空间内的所有数据全部进行加密,增强数据安全性;支持表级加密,增强安全的同时又兼具灵活性;在不影响数据库本身权限的同时,系统增强了权限控制,分别从数据库用户,客户端IP,应用系统等不同层面对权限增强,全面防止越权访问,防止数据泄露;安全服务组件实现对密钥的管理,让用户自己掌握密钥,即使数据被盗也无法查看明文。




5 大数据运维分析业务需求:支撑大数据分析运算

通过从运维端进行大数据分析,实现对海量数据提供高效的分析和计算。数据分析挖掘引擎支持并行化统计算法和机器学习基础算法库,支持的并行化基础算法,能够处理大数据集。具体功能要求包括查询、关联分析、统计分析、报表展示、数据挖掘以及二次开发等。


技术实现:数据脱敏(静态)

针对海量数据进行分析计算,是典型的数据库脱敏系统面临的分析场景,在此场景下对将生产数据中的部分敏感数据进行脱敏处理,有效防止大数据平台内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下流出。针对数据分析这一应用场景,支持对目标数据库中部分数据进行脱敏,可根据指定的过滤条件对数据来源进行过滤筛选形成数据子集。在脱敏产品的使用过程中,面对生产环境中数据或数据结构频繁发生变化的场景,及时调整脱敏策略,防止敏感数据“漏网”现象,引发敏感数据泄露。

[object Object]b25df8148e4e173e065962ba90cceed0eebe2631


6 大数据展现业务需求:政务部门的公开下载和服务

提供政务部门可公开各类数据的下载与服务,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑,推动信息资源增值服务业的发展以及相关数据分析与研究工作的开展。


技术实现:数据脱敏(动、静)、数据水印

数据脱敏:使用动态+静态数据脱敏技术,实现对外数据公开下载以及开发利用等服务过程中的数据安全。

数据水印:通过系统外发数据行为流程化管理,对数据外发行为事前数据发现梳理、申请审批、事中添加数据标记、自动生成水印、事后文件加密、外发行为审计、数据源追溯等功能,避免外发数据泄露无法对事件追溯,提高了数据传递的安全性和可追溯能力。系统通过智能自动发现功能辅助用户发现敏感数据完成外发数据梳理;通过对原数据添加伪行、伪列、对原始敏感数据脱敏并嵌入标记等方式进行水印处理,保证分发数据正常使用。水印数据具有高可用性、高透明无感、高隐蔽性不易被外部发现破解。一旦信息泄露第一时间从泄露的数据中提取水印标识,通过读取水印标识,追溯数据流转过程,精准定位泄露单位及责任人,实现数据溯源追责。


整个大数据平台的安全建设工作,不是简单的安全产品的堆砌,它需要基于专业的安全建设思路来建立完整的数据安全防护体系,满足业务需求的同时,兼顾安全需求。


f9e931cbd29896df74a863491fc240460786b55a


关于云上安全的话题,安华云安全将于17年12月12日在北京3W咖啡举办线下沙龙活动欢迎各位报名参加:

了解详情:http://www.dbscloud.cn/cloudsecurity.html 

705e1d1e95d6c421c2aaf26dbc7f2395b8f0ec02


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
87 2
|
4月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
80 0
|
1月前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
1月前
|
存储 安全 大数据
|
2月前
|
存储 NoSQL 大数据
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
41 3
|
2月前
|
SQL 分布式计算 大数据
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
58 0
|
2月前
|
大数据 流计算
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
54 0
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
99 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
4月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
4月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
788 17