随着人类社会进入信息时代,大数据、物联网、人工智能技术的飞速发展和创新应用,正快速推动教育、医疗、工业、能源等各行业的产业创新与变革。在大数据应用规模和应用种类不断飞涨的同时,大数据平台系统在数据采集、传输、处理、存储方面,对安全方案、隐私保护、生命周期管理、数据来源安全、价值保护等都提出了新的挑战,保护数据安全和隐私、不被篡改也是企业和用户越来越重视的问题。
清华-青岛数据科学研究院(以下简称:数据院)于2017年8月成立了大数据基础设施研究中心,致力于数据平台体系的建设,支撑大数据应用和大数据产业的基础设施。大数据基础设施研究中心高级顾问赵维涛老师和英特尔有限公司平台安全产品规划总监李志强先生,来到清华大数据“应用·创新”讲座,与现场近百位听众共谈大数据基础设施应用场景和数据隐私保护等大数据底层架构的话题。赵维涛老师通过理论结合实际应用需求,介绍了BDI中心在大数据基础设施方面的观点和方案以及实践案例。李志强先生介绍了数据和应用保护的原理和框架,更从实际的应用角度,介绍了数据保护和应用防护的实际案例。
数据院大数据基础设施研究中心高级顾问 赵维涛
赵维涛老师作为第一位分享嘉宾为听众介绍了“大数据基础设施应用场景”。
以下是赵维涛老师的分享视频,建议在wifi条件下观看。
赵老师首先介绍了大数据基础设施研究中心在产学研方向的历史使命,接着提出大数据基础设施是围绕着数据价值的流转过程和生命周期来设计和服务,包括数据采集、数据分析,数据存储,数据发布和数据交换等,是一个创新性的系统工程,作为支撑大数据应用生态的基础,是数据价值挖掘,保护,提升和交换的根本保障平台。
大数据基础设施的发展趋势有以下几个方面:
云平台成为标准应用形式,能力将不断增强;数据移动互联成为趋势;
移动互联网、loT技术带来应用的爆发,实时数据规模爆炸性增长;
去中心化分布式架构颠覆了边界安全防护方式,数据隔离、流量加密、终端防护将是安全的新态势。
随后赵老师通过业界的众多应用案例,为大家展示了不同的应用场景,说明了数据的来源不再只是局限本地,而是全球化。高频交易的低延时数据要求导致美国运营商从东海岸到西海岸建立了微波中继网络,AWS推出SnowBall Mobil卡车是为了解决企业海量储存数据的快速转移。数据采集后原始数据的存储和处理也逐渐边缘化,以期望获得快速的响应能力,保障用户体验。
大数据应用的计算资源会按需使用超大数据中心和边缘计算,以适合不同的应用场景,例如VR,自然语言识别等实时性应用要求有强大的边缘计算能力。
数据的预处理或者数据的中间加工过程越来越多地使用第三方提供的资源,包括云计算,容器和”无服务器技术”的发展,使得公有云上的资源得以实现弹性变化和高效利用。
赵老师介绍了谷歌最近提出的基础设施设计的五个优先级:
从高到低分别是资源可用性资源的可管理能力
网络迭代升级能力
资源的隔离能力
端到端的性能保障
大数据基础设施研究中心以此为参考提出HFC云网协同大数据网络的概念和演示场景。利用知识图谱分析关联应用、资源类型、安全级别等多维因素,提出依托大数据管理,云网协同,SDWAN和DCI混合接入,私有云和公有云弹性调度等技术的大数据基础设施平台网络理念。保障大数据应用的QoE, 提升资源利用率,建立数据目录服务,建立完善的大数据应用生态环境,为数据提供方、数据处理方和数据使用方提供可靠安全的数据网络平台,应用场景包括:大数据的高速直连;大数据混合云接入;大数据数据安全和隔离等。
英特尔有限公司平台安全产品规划总监 李志强
如何保护个人数据隐私,如何确保应用安全,是大数据走向更广泛场景的前提与保障。针对这个问题,英特尔有限公司平台安全产品规划总监李志强为大家做了主题为“大数据客户隐私和应用保护”的分享。
以下是李志强嘉宾的分享视频,建议在wifi条件下观看。
为加强云平台的安全性,让更多的用户可以放心将自己的数据和代码放到云平台,微软研究院已经基于英特尔SGX来进行可信云项目研究。
在传统的TCB(Trusted Computing Base)概念里,应用安全通过在CPU、虚拟层和操作系统层三个层面实现三位一体的保护。过去的研究成果尝试在虚拟层做一个可信操作系统,绕过原有操作系统给应用程序提供一些保护。最新的研究甚至考虑直接绕过虚拟层,从CPU硬件层直接给应用程序提供保护的执行环境,以上这些设想已取得实质性进展。
Intel SGX(SoftwareGuard Extensions)从CPU层面建立了一个信任链,为用户提供平台安全能力。
与现在通用的使用VMM虚拟机创建Trust OS的沙箱提供应用程序运行保护不同,SGX直接在CPU层面,提供受保护的系统内存和独立的小沙箱,减少了TCB的范围, 即使软件层、OS层和虚拟层被攻破,或者直接用物理方式获取内存数据,仍可以保护用户数据和具有知识产权的代码。
SGX服务于大数据,在海外有很多的研究方向:
- 一是提供自动化工具实现原有代码到SGX的直接移植;
- 二是借助SGX保护隐私实现数据授权和共享;
- 三是大数据分析分布式计算每个节点运行代码的知识产权保护;
- 四是提高SGX应用的效率;
- 五是SGX与最新的区块链技术相结合,提供更安全和可信的实现方式。
最新的研究成果包括:
- 一是将SGX应用到Map Reduce算法,利用SGX保证每一个结点间可信;
- 二是在区块链中使用SGX,确保安全信任的基础上简化其中报文验签和共识流程。
李志强最后总结提到,SGX在云上将有广泛的应用前景,通过SGX对数据和代码提供CPU层级的沙箱保护能力,云可以分成信任云和非信任云两部分,对于合法云服务提供商提供的可信云服务,用户可以放心地把数据如密钥、信息、卡号、病历等放到云端,开放给授权用户共享使用,或者放心地在云上运行一段核心机密算法代码。
讲座最后,来自清华大学、北京化工大学的同学针对大数据基础设施在垂直细分领域,工业园区、智慧城市、智慧交通等应用场景的支撑能力以及英特尔SGX如何使用、SGX安全保护机制、第三方合作等问题提问了现场嘉宾,并得到了嘉宾详细的解答。结束后同学们纷纷表示,以前对大数据算法、应用关注较多,其实大数据基础设施和数据隐私保护是大数据产业发展的基石,今后将会更多关注这方面的科研。
如果把智慧城市、智能交通、无人驾驶、新型零售、终身教育看成大数据产业含苞待放的花朵,那么大数据基础设施和客户隐私保护就是花坛和其中的沃土,让我们一起努力,在大数据百花园中辛勤耕耘,静待花开。
原文发布时间为:2017-12-2