数据分类分级实践难点

简介: 数据分类分级是开展数据全生命周期管理的基础,企业做好数据分类分级才能更好地去落实合规义务以及进行数据安全管控。今天,我们从数据分类分级落地实践的角度,来阐述企业在开展数据分类分级过程中的难点以及如何“破局”。

1、万事开头难,企业数据分类分级工作如何启动和推进?


       难点:对于企业而言,数据分类分级是一项复杂且长期的工作,牵涉部门多、涉及业务广,横跨业务、数据、安全等多领域,需要对应部门协同开展工作,如何协调多部门资源来启动和推进数据分类分级工作,是企业面临的首要难题。

       解决方案:建立组织保障,明确数据数据分类分级工作的组织架构、职责分工,为数据分类分级的协同开展提供支撑。在实际工作中,一般由数据安全或数据治理部门来牵头数据分类分级工作的开展,但各个行业的不同企业之间,以及不同业务体量的企业之间,也会存在一定的差异性。

以大型互联网金融平台企业为例,下图为某头部互联网金融平台的数据分类分级工作组织架构:


       董事会和数据标准化治理委员会负责标准、制度、流程的制定,数据安全及分类分级执行团队负责数据分类分级项目的整体管理、推进和执行工作,其中具体对接执行工作需要数据安全部门、数据治理部门、业务部门以及合规部门协同配合,并由内控内审部门进行项目的审计工作。

以某中大型证券公司为例,在职责划分方面,明确由数据安全部门牵头数据分类分级工作的开展,制定相关制度流程,并由数据治理部门、IT部门进行数据分类分级工作的配合,对数据分类分级工作结果进行复核。

       以某Top新零售企业为例,数据分类分级工作主要由数据治理部门进行统一管理和推进,合规部门负责制度体系的建设,业务部门进行相关配合工作。


2、分类分级制度如何建,企业如何建立行之有效的分类分级制度标准?


       难点:企业梳理数据分类分级制度时,需要有法条解读、数据治理、安全管控等复合知识背景的团队作为支撑,对于企业来说这样的人才储备往往不足,且数据分类分级需要匹配对应的业务场景要求,在标准制定过程中,如何既充分体现数据分类分级特征又满足业务属性,对分类分级制度的梳理工作提出了更高的要求。

       解决方案:智能化的法条解读工具可帮助企业梳理法律法规以及数据分类分级相关标准要求,好的法条解读工具需要收录数据和对应场景相关的法律法规、政策规范、标准指南等内容,还需要囊括实践案例和详细解读,并在此基础上,能够结合需求录入,智能化进行法律义务和合规要求梳理,形成满足不同场景的分类分级标准依据。与此同时,还需要由专业化且实践经验丰富的团队梳理模板和升降级规则,以满足企业快速梳理出既满足监管要求,又符合实际业务的分类分级标准的需求。


3、监管侧重有差异,企业面向不同监管部门将如何应对?


       难点:不同监管部门针对数据分类分级的要求不同,某个具体字段在面向A监管部门时敏感级别为C2,在面向B监管部门时敏级别为L3,企业依据单个办法或者标准无法满足监管审查要求。

       解决方案:首先可以采取“融合”方案,即通过“从严模式”维护企业的一套分类分级模板,用于监管审查以及企业内部数据安全治理。其次,在面向不同监管时,根据不同的分类分级标准建设不同的分类分级模板,并在数据分类分级平台进行模板的切换扫描,产出不同的数据分类分级结果后报送不同的监管部门。



4、数据资产发现难,企业面对多样的数据源以及海量的数据如何有效进行资产盘点?


       难点:多数企业对数据资产未进行全面梳理,或者一次梳理后,后续维护更新不及时,导致未形成数据资产大盘,或者大盘落后于实际数据资产,且其数据类型多样,如同时有结构化数据/半结构化数据/非结构化数据,数据源系统包括关系型数据库、非关系型数据库、大数据平台、文件系统等,数据呈现碎片化分布特征,同时其数据体量庞大,这为数据资产发现工作带来了挑战。

       解决方案:在数据发现能力上,用九数据分类分级平台同时支持MySql、Oracle、达梦、Hive、Maxcompute、Hbase、OSS、语雀、Office、泛微等各种不同类型的数据源,针对字段、文本、图片、文档等均能有效发现和识别,且在面对海量数据的扫描识别时,采用随机数据抽样算法,能在保证数据真实分布的同时做到对数据库性能几乎无影响。


5、敏感数据识别准确率低,企业如何保证分类分级结果的准确性?


       难点:当下部分数据分类分级工具根据元数据信息(如表名、字段名、字段描述等)进行敏感数据识别,但企业的数据字典往往不够完善,导致大部分数据无法被有效识别,还有部分数据分类分级工具以数据内容进行识别,但其识别方式主要以正则为主,对于手机号、身份证号、卡号等识别率较高,但是对于其他字段如业务属性识别率较低,大部分在40-50%的水平。

       解决方案:用九智汇数据分类分级平台结合元数据信息的同时进行数据内容的特征抽取,并使用机器学习算法综合考虑抽取的特征,判断某列数据是否属于某个敏感标识(二分类模型),从而实现更高的准确率和召回率,针对敏感数据识别的准确率达95%+。


6、监管要求/业务需求频变化,企业如何快速响应变化?


       难点:数据分类分级是一项长期持续的工作,在此过程中监管要求或业务需求一直在动态变化,比如某个字段在过去的分类分级中被定义为非敏感字段,不属于数据分类分级模板中的任何标识,但由于业务的变化,在现阶段的业务要求下,该字段被业务团队/合规团队重新定义为敏感字段,需要进行分级打标,此时如需针对此敏感字段建设对应标识往往需要算法/研发同学介入开发,投入资源成本大且上线周期较长。

       解决方案:用九数据分类分级平台提供开放模型能力,针对结构化数据/非结构化数据(图片、文档)均提供自定义标识能力,用户仅需上传少量数据样本(最少仅需5条)即可在数秒内生成标识模型,并将新标识自定义配置在数据分类分级模板中,用于数据识别。


7、数据分类难度大,同字段如何自动实现多分类?


       难点:以证劵公司为例,其在实际数据分类分级过程中,往往会遇到这样一个问题,通过敏感数据识别能力,发现诸如“证劵代码”、“姓名”这样的字段大量存在,但其究竟属于哪一类别、哪一级别存在不确定性,如证劵代码可能属于“交易数据-交易管理-成交信息”分类下,也可能属于”交易数据-行情资讯-行情数据-普通行情数据”分类下,而“姓名”字段可能是“交易数据-投资者管理-个人投资者信息-个人投资者基本信息”类别中的“姓名”标识,也可能是“交易数据-投资者管理-机构投资者信息-机构投资者基本信息”类别中的“法人姓名”标识,且在不同的分类下,对应的分级往往不同,显而易见单单敏感数据识别能力已不满足企业实际业务需求。

       解决方案:用九智汇分类分级平台-标识自动分类能力很好的解决了上述问题,根据上下文信息,结合标识分类模型,在对数据进行识别的同时进行分类,如针对“证券代码”这一字段,平台会将其识别为证劵代码(成交信息)、证券代码(普通行情数据),极大地提高了数据分类分级的效率与准确性。



8、人工运营成本高,企业如何提升运营审核效率?


       难点:企业在数据分类分级的冷启动阶段或本身数据质量不高(存在脏数据)时,部分字段在扫描识别时可能存在识别不准的情况,此时需要人工介入审核,但具有相同内容的字段数量在数据库中往往有几百甚至上千个,逐一进行人工审核显然工作量巨大。

       解决方案:聚类审核能力,使用预设特征和局部敏感哈希,将具有相同特征的审核字段聚成同一组,审核人员可在组内进行一键审核,原有100+字段审核任务变成10+组,极大的提升人工审核效率。


       用九智汇以数据分类分级为核心底座,同时为企业提供隐私合规和数据安全解决方案,从数据发现出发,连接隐私合规和数据安全形成一体化数据合规治理框架,从而构建监管、企业、用户之间的信任桥梁,让数据在合规的前提下,释放数据价值!


阅读原文:数据分类分级实践难点

相关文章
|
存储 数据采集 算法
数据分类分级-敏感数据识别工程实践
在《数据分类分级-结构化数据识别与分类的算法实践》这篇文章中讲到了结构化数据识别与分类的算法实践,那么这些算法能力如何以标准产品的方式落地,并帮助客户解决在数据分类分级过程中遇到的各种问题呢?本文将站在工程的视角,结合我们的思考和经验,从整体的大框架上介绍用九智汇数据分类分级产品敏感数据识别技术方案和能力,希望对大家有所帮助,想了解细节的,欢迎通过公众号联系进行线下沟通。
783 1
|
数据采集 运维 供应链
数据的分类和分级
数据的分类和分级
1514 0
|
负载均衡 算法 应用服务中间件
nginx的负载均衡是干什么的?具体如何实现?底层原理是什么?
nginx的负载均衡是干什么的?具体如何实现?底层原理是什么?
650 0
|
3月前
|
人工智能 JSON 前端开发
智能体来了:从 0 到 1:企业级 LLM Agent 的工程化落地实践
本文作者Agentcometoo分享企业级AI Agent工程化落地实践,直击通用框架在真实业务中的四大痛点:多工具协同不可控、高并发状态难追踪、异常缺乏工程兜底、Debug成本高。提出轻量可控的ReAct架构,强调“可预测、可追踪、可兜底”,通过工具基类约束、主循环结构化输出、步数限制与日志追踪等工程手段,实现LLM Agent稳定上线。
375 8
|
4月前
|
存储 安全 算法
医疗数据安全国家标准发布 电子病历需满足“三重加密”要求 - 金海境科技
服务器数据恢复,勒索病毒解密恢复,虚拟化数据恢复,数据库修复数据恢复,VMWare数据恢复,分布式数据恢复,vSAN数据恢复,存储数据恢复,数据恢复
418 0
|
人工智能 运维 安全
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
9月19日,在杭州云栖大会「AI治理与安全论坛」上,阿里云宣布通过人工智能技术的全生命周期管理ISO42001体系认证。该项认证由国际标准化组织(ISO)和国际电工委员会(IEC)制定,是第一部可认证的人工智能国际管理体系标准。
934 14
|
人工智能 编解码 API
刚刚,通义万相模型能力重磅升级!
刚刚,通义万相模型能力重磅升级!
|
人工智能 自然语言处理 供应链
国产与国外CRM系统:功能与优势全解析
随着企业数字化转型加速,CRM系统成为提升竞争力的关键工具。国产CRM系统如销售易、神州云动、八骏科技等,以高性价比、本地化服务和灵活定制见长;国外CRM系统如Salesforce、Zoho CRM、Microsoft Dynamics 365等,则在功能创新、全球化支持和技术成熟度上表现突出。企业在选择时应综合考虑自身需求,选取最适合的CRM系统,助力业务高质量增长。
|
运维 安全 网络安全
什么是数据库防火墙
什么是数据库防火墙
610 3
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
24178 0