收录于合集
#隐语解读20个
#版本更新7个
隐语V0.8.0版本更新,为满足多方协同的数据分析需求,隐语构建了全新的“基于多方安全计算的数据分析引擎SCQL”,将由隐语框架负责人王磊,在今天下午13:30准时开播的「隐语开源社区开放日」现场发布和解读,不容错过!
🌟版本更新要点
隐语SCQL(Secure Collaborative Query Language)
发音:/ˈsikw(ə)l/,同SQL,全称 Secure Collaborative Query Language (SCQL),意为MPC SQL。
-以 SQL为使用接口,基于隐语MPC内核SPU构建,支持多方联合数据分析;
-支持虚拟库、虚拟表、用户等抽象,方便进行分项目与分表的合作项目权限管控;
-支持字段级别的数据权限控制机制(CCL);
-支持上游平台集成系统 API,封装独立的产品;
-支持常用算子:JOIN, GROUP BY, 支持聚合类函数(sum/min/max/avg)、算术类算子(+、-、*、/、INTDIV)、比较类算子(<、 <=、 >、 >=、=、!=)和 IN等算子与函数;
🌟基于多方安全计算的数据分析引擎SCQL:
提到多方安全分析,除了严谨的定义和晦涩的原理,或许从具体的应用场景中更能感知它的温度:
- 金融场景下:不同金融机构间进行合作,在不泄露用户隐私的前提下,通过贷款次数、贷款额度、守信记录等规则的查询,来辨别潜在客群是否为高风险客户;
- 营销场景下:不同平台之间进行合作,实现用户画像互补,分析用户对内容的偏好,通过更合理的内容推荐提升用户的活跃度;
- 医疗场景下:不同医院甚至同家医院内的不同科室之间,联合分析患者的就医记录,对挂号或预诊提供决策指导,提高医疗服务效率;
聚焦多方数据联合分析的场景,隐语基于MPC技术内核的底层抽象SPU设备,创新实现了一种类似SQL的多方安全分析语言 "SCQL"。这种语言继承了 SQL 作为常用数据分析语言的普及性、易学性和高成熟度,同时还拓展了标准 SQL 的语义,可以描述基于多个数据源的安全计算,通过“SELECT FROM”、“JOIN ON”、“GROUP BY”等语句的组合搭配,即可完成联合分析的统计结果生成。
具体展开:
- 从使用与集成上:方便接入用户的本地数据源,使用方式和体感与传统SQL无异,且提供简单易用的 API 接口,便于集成封装,低成本满足业务中的多方数据协同分析需求;
- 从数据访问控制上:利用隐语CCL(Column Control List)权限控制机制,参与方对数据授权的控制颗粒度可精细到「字段(列)」,在不同的场景、不同的联合项目中,可以根据不同数据字段(列)的价值区别,进行精准的使用与控制;
- 从功能范围及灵活度上:灵活支持SQL常用数据源,降低数据协同前的匹配成本(内置支持MySQL,且未来还计划支持postgres、Hive 和 csv等数据源);支持大部分常用数据分析算子&函数;既支持小而快、高频率为主要诉求的在线查询,也支持更复杂、侧重业务决策诉求的离线分析;
- 从计算性能上:首个工业级多方安全数据分析系统,继承了传统数据库中Query下推等重要优化手段,在联合的多方数据分析中同样实现提前过滤数据、减少网络传输,降低了MPC计算的性能开销。
📖案例介绍:
开源之外,蚂蚁保险科技团队就已经在与保险公司的合作中,面向核赔勘查场景,使用了隐语SCQL功能。基于理赔科技平台和隐私计算框架“隐语”打造了“理赔大脑”智能理赔系统,在整个系统中,多方数据联合分析解决方案是核心模块之一,帮助保险公司及其外部医疗数据ISV在原始数据不离开本地、数据价值有保护的前提下,进行联合分析。
简化来讲该方案,保司提供「用户赔案数据」包含了出险疾病类型、保单生效时间、出险时间等维度,此外保司提供的「既往症免责规则」还包含了出险疾病类型及其对应的免责规则,ISV提供「用户就医数据」包含确诊疾病类型、就诊时间等维度。
在联合分析中,通过“SELECT FROM”、“JOIN ON”等语句的组合搭配,即可完成联合分析的统计结果生成,在保障保司和ISV数据隐私的前提下,分析用户是否满足理赔条件。这一健康险定制多方数据联合分析解决方案,覆盖了全国案件占比50%省份的官方合法来源医疗数据,利于有效发现阳性线索、降低错赔风险,通过数字化调查审核控制了理赔运营成本。
未来,隐语开源社区也将发布SCQL的共建任务,欢迎大家持续关注隐语GitHub社区,甚至将你的共建计划通过pr的方式提交,成为共建任务的组成部分,共同持续建设完善这一功能。