蚂蚁金服高级技术专家徐红星 :蚂蚁金服大数据开放式创新实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 8月30-31日20:00-21:30,一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。

8月30-31日20:00-21:30,一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。

蚂蚁金服&阿里云在线金融技术峰会专题: https://yq.aliyun.com/activity/109
峰会统一报名链接:http://yq.aliyun.com/webinar/join/38


来自蚂蚁金服的高级技术专家徐红星 ,将在本次峰会中为大家带来《蚂蚁金服大数据开放式创新实践》的分享,下面是议题详情,供大家参考。


议题名称:《蚂蚁金服大数据开放式创新实践》


议题简介:DT时代,数据开放式创新如同石油和电力,滋润经济发展,普惠大众创业和万众创新,让用户获得尊重与平等服务。蚂蚁数巢致力于打造国内数据开放与创新的第一平台,促进蚂蚁体系内数据服务开放和第三方数据开放。本次演讲主要针对数据合作与开放这个命题,讲述蚂蚁数巢是如何打造一个公允、安全、可信的平台,让数据合作安全无忧。目前蚂蚁数巢已经支持了芝麻、口碑、保险和网商银行的数据能力开放,第三方数据开放也在如火如荼的进行中。


本专题主要涵盖:
1) 数据在蚂蚁体系内外的应用情况
2)蚂蚁数巢产品和业务介绍。
3)蚂蚁数巢核心安全体系介绍。


关于分享者: 徐红星(花名:崇思),2009年加入阿里巴巴, 先后参与阿里巴巴B2B、蚂蚁金服的数据平台架构和建设。在大数据架构、数据平台业务与产品规划设计方面拥有丰富的实战经验,规划和实现了蚂蚁内部小二的数据工作台(ADC)、安全服务平台(ADS)和对外的采云间平台(DPC)。目前主要负责蚂蚁数巢和算法平台(DTPAI)的产品规划和建设。


以下是采访内容:


云栖社区:能否简单介绍你理解的大数据开放式创新平台?蚂蚁数巢是怎么做到的?


徐红星:作为一个数据开放式创新平台,数据通过可用不可见的方式安全的开放和共享,要做到这点,是非常难的。我们不仅要开放数据,还要开放大数据的基础能力,帮助企业去提取数据的价值。开放数据的过程中,有很多问题需要去解,比如说如何让两家的企业的数据能够“连接”起来,如何保护数据的所有权、用户隐私权、数据的审计权、许可权和数据的安全等,每个问题都很棘手。数据开放不是目的,是手段,这一过程,怎么帮开放的企业创造价值,怎么去度量这份价值,也非常麻烦。对于使用数据的企业来说,怎么保障数据的质量和可用性等,也需要整个平台来进行管控。蚂蚁数巢想培育一个“安全”的互联数据生态系统,就要解决大数据开放式创新带来的问题。我们目前也是走在路上,也还有很多产品功能有待研发,业务有待推广。数据无安全,不开放,在构建这个系统过程中,安全一定是为先的,严格保护开放过程中的用户隐私数据安全、商业机密信息安全和数据的所有权,在此基础上建立数据与数据之间的连接关系,让数据能充分发挥网络效应和外部效应,实现1+1>>2。同时还要建立数据的消费和度量体系,通过这反过来驱动数据的开放和基础设施的建设。

云栖社区:蚂蚁数巢是通过什么样的方式促成数据在体系内开放以及第三方数据开放的?
蚂蚁金服为什么要把数据开放出来,第三方企业为什么要把数据共享出来?大家的隐忧到底有哪些?


徐红星:这些问题我们需要思考清楚,纵观阿里巴巴、蚂蚁金服的数据开放,一般都是业务发展需要的,比如说微贷与外部商业平台开展的业务,保险事业部建设的乐驾平台。而数据的开放通常需要在一个业务闭环体系内进行流动,用户的真实数据不出闭环体系。能出体系内的数据都是深加工过的,比如说针对某个业务场景预测结果,针对用户的推荐产品等。回到业务问题,回到商业本质上,蚂蚁数巢应该做的事情是围绕着企业、行业的数据建立一个生态系统,通过场景,也就是业务和用户的痛点问题,驱动点对点或多方的数据合作和应用,通过场景驱动数据的闭环体系建设,通过场景驱动数据价值的度量。只要开放出去的不是裸数据,是深加工的数据或信息,从国家法律和企业数据安全的角度来看,都是允许的,当然这些开放的信息可能需要面向场景才能确定。最关键的一点,通过场景,可以建立起数据的一个可度量的价值体系,这个可度量体系反过来也驱动数据的开放。

云栖社区:在大数据开放式创新路上,你的担心和隐忧有哪些?为什么要在这条路上走下去?


徐红星:数据是企业最宝贵的资产之一,相当于一个人的底裤。当企业把最重要的资产放在你这个平台时,其实企业是把信任交给你,把企业的发展交给你,你肩上就应该多了一份责任,你就要做到足够的公平公正,就要如履薄冰,小心谨慎。在安全上,“守底线,负全责”。这个过程除了加强安全建设之外,还需要加强大数据价值提取和封装能力建设,也就是说除了大数据基础技术平台之外,还需要我们建设一些更偏向业务层的产品,来更安全和更大力度的开放数据,实现企业的重托,这个时候需要一些前沿领域的技术,比如:人工智能方向的深度学习、迁移学习等。在这条路上能走下来,我是觉得孙权的一句话是很对的,我们要有数据信仰。要坚定的相信,DT时代,数据一定是最重要的核心生产资料,像水,石油、电力一样,成为社会的公共资源,成为社会进步的推动力,而未来的生产力就是计算能力和创业者的创新能力。有了大数据,有了计算能力,有了创意,这个时代将发生翻天覆地的变化。这条路,难免坎坷,但是想象一下,利用大数据可以提前避免疾病的发生,通过大数据的共享,普普通通的小摊主可以获得金融的贷款,开始希望的一天。通过大数据,可以让每一个个体享受平等、个性化的教育,我觉得这这就是我们可以一起奋斗终生的理想。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
34 2
|
21天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
69 4
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
1月前
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
348 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
90 1
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4