蚂蚁金服首席架构师何昌华:开源 SQLFlow 是牛刀初试,实时大数据系统才是未来基石

简介: 开源 SQLFlow,反哺业界,同时小小秀出AI肌肉。这就是蚂蚁金服近日开源首个将 SQL 应用于 AI 引擎项目 SQLFlow 后,业界给出的反应。

阿里妹导读:开源 SQLFlow,反哺业界,同时小小秀出AI肌肉。这就是蚂蚁金服近日开源首个将 SQL 应用于 AI 引擎项目 SQLFlow 后,业界给出的反应。带领团队研发出 SQL 正是蚂蚁金服计算存储首席架构师何昌华。今天,我们邀请到何昌华,聊聊他最近的一些想法和探索。

5月6日,蚂蚁金服副 CTO 胡喜正式宣布开源机器学习工具 SQLFlow:“未来三年,AI 能力会成为每一位技术人员的基本能力。我们希望通过开源 SQLFlow,降低人工智能应用的技术门槛,让技术人员调用 AI 像 SQL 一样简单。”

image

蚂蚁金服副 CTO 胡喜宣布开源 SQLFlow

与早前的 JavaScript、Swift 等技术极为相似,人工智能技术虽拥趸众多,但门槛极高,不具备广泛的“普适性”,相关的专业人才也非常稀缺。当前人工智能的核心领域是“机器学习”,而深入掌握“机器学习”需要极为丰富的知识储备,如高等数学、统计学、概率论以及编程等,同时还需要他在其他领域保持非常高的知识水平,这些苛刻的要求让很多技术人很难成为机器学习领域的专家,从而制约着整个人工智能产业的发展。

具备易学、易用特点的 SQLFlow 正是为了解决上述问题而来。胡喜表示,“开源 SQLFlow 是希望通过技术的简化革命,让机器学习的能力掌握在业务专家的手中,从而推动更多的人工智能应用场景被发现和创造。”

SQLFlow 把艰深的 AI 与简单的 SQL 结合起来,大大简化了数据工程师使用AI技术的门槛。而研发出 SQLFlow 的,正是蚂蚁金服计算存储首席架构师何昌华带领下的 AI Infra 团队。

image

何昌华斯坦福博士毕业,先在 Google 总部工作7年,赢得过公司最高技术奖项,其后又在独角兽 Airbnb 工作2年,负责后台系统的应用架构。

2017年5月,他正式加盟蚂蚁金服,担任计算存储首席架构师。

在蚂蚁金服,何昌华的工作是开发新一代计算引擎,搭建金融型数据智能平台。

而 SQLFlow,就是计算引擎主线上的结晶之一。

不过对何昌华来说,世界正在巨变,他还要带队探索一些没人做成的事情。比如全实时的大数据智能系统。

未来技术基石

大数据的概念,最早来自于搜索引擎行业,因为搜索引擎面对的是人类在互联网上留下的爆炸性增长的庞大数据。

2010年底,谷歌宣布新一代搜索引擎“咖啡因”正式上线,这项技术的革命性在于,任何时刻,世界上的任何网页发生了变化,都可以实时地添加到索引中,用户也可以实时地搜索到,解决了传统搜索引擎的延时问题。

何昌华当时正是咖啡因开发团队的核心技术负责人之一。

他解释,“咖啡因所实现的最核心的功能,就是实时。”

而现在何昌华在蚂蚁金服工作的目标,同样是搭建一个“完全实时”的大数据处理系统,或称之为大数据智能平台。由于线下生活场景的多样性和复杂性,这是个比构建实时搜索更有挑战性的任务。

他认为,这将成为未来技术的基石。

对于计算机来说,实时就是在发出请求到返回响应之间的延迟尽量小,对于大数据处理系统来说,这还意味着从数据生产到消费的延迟尽可能低,所有这些都意味着计算速度和能力的提升。

此前常用的大数据计算模型 MapReduce,对数据的处理是“分片式”的,数据的片与片之间有边界的概念,这种批处理的模式不可避免地会带来延时问题。

以搜索的场景为例,假如以天为时间单位对数据进行批处理,那就意味着今天更新的网页,用户明天才能搜索到,调高处理的频率可以部分解决问题,一天两次、一天四次、两小时一次……

虽然能逐步接近“准实时”,但成本也会急剧上升。

要实现真正的实时,就必须打破这种批处理的边界,让数据处理的过程像水流一样,随来随算,随时反馈。

这也催生了后来流式计算引擎的蓬勃发展。

而在何昌华看来,除了快,“实时系统”还有两层重要含义。

第一是 OLTP(联机事务处理)和 OLAP(联机分析处理)的融合。

在以往的观念里,OLTP 对实时性的要求高,OLAP 对时效性的要求不那么高。

举例而言,用支付宝进行一笔交易,需要即时查询和增删记录,就是由 OLTP 来处理的。而对用户行为特征的数据分析,则由 OLAP 来处理。

但现在随着业务场景需求的不断变化,OLAP 的时效性要求也越来越高。

例如互联网金融中的风控场景,就需要在完成一笔交易的极短时间中,通过分析用户的特征数据判断风险,这要求 OLAP 也要能实时反馈,且反馈结果马上就能够在线访问。

第二是智能和数据系统的融合。

人工智能和机器学习是大数据应用最热门的领域,而现在绝大多数公司的做法,是将数仓和机器学习平台分开,从数仓取一批数据,放到机器学习平台上去训练模型。

随着业务场景的复杂化和多样化,这种模式逐渐显露问题,因为模型能否实时更新,能否能用更实时的数据来训练模型,直接影响了应对复杂场景的能力。

image

“数据实时流入、实时训练模型,模型实时上线决策并反馈数据——这一条线如果能完全打通,对于业务将产生不可估量的价值”, 何昌华说。

数据、计算、智能,所有这一切构成了何昌华设想中的“高效率的大数据底盘”,也就是一个融合的实时数据智能平台,或者叫“Big Data Base”,就像曾经数据库成为无数场景的数据底盘一样。

如今,不仅是蚂蚁金服或者阿里巴巴,在各行各业中,数据驱动的业务都越来越多。

但大数据开发的门槛很高,如果每一项业务都从数据开发的底层做起,将会非常耗时耗力。

如何才能让做业务的人有更多精力专注于业务?

何昌华认为这就是“Big Data Base”的使命,同样也是“基石”的含义:

我们希望让这件事变得简单——各行各业的从业人员、各条业务线的同学,在坚实的平台基础上,不需要知道下层的细节,就可以很方便地开发上层应用。

离真正的智能有多远?

降低数据和智能的门槛,这是何昌华对于新引擎和数据智能平台的期望。

目前,他带领团队开发的金融型多模融合计算引擎,已经实现了流计算与图计算、流计算与机器学习的融合打通,距离他设想中的“大融合”越来越近了。

image

何昌华透露团队目标,就是让业务变得“极简”:

未来两到三年,我们希望新引擎能够承担实时在线的融合计算任务。基于这个引擎,结合其他开源引擎,我们就能够构建出一整套数据智能系统。在这个数据智能系统上,业务可以非常轻松地完成从功能开发到产品上线的流程,后续的吸引流量、分析决策等也都可以借助这个平台来完成。

他甚至勾画了一幅很科幻的未来场景:你写一个功能交给引擎,引擎会决定调用多少资源去计算,你无需关心具体的计算过程,结果将会在最短的时间内反馈给你。

当你构想出一种新型业务,数据智能平台会判断需要哪些数据,采用哪种模型,如何上线,如何运营流量。

这些流程,都可以智能化地自动完成。

这是个更长远的目标。我们开发出数据处理的能力,未来,任何人都可以使用这种能力,真正实现“数据民主化”。

这样一个融合多种能力的实时数据智能平台,目前在世界上还没有哪家公司能完全研发出来。

何昌华也谨慎而满怀信心地展望着未来:“我们也是在探索,如果完全实现了探索目标,我们就将真正站到全世界领先的位置。”

无人之境

世界瞬息万变,数据作为物理世界的镜像,理论上是无穷无尽的,问题只在于人类有没有办法去记录和采集它们。

互联网和移动互联网的普及,让人类的行为数据采集成本大大降低。

IoT 传感器设备的普及,让工业生产和社会生活中的数据也能够大量地沉淀下来。

因此在过去的二十年中,数据总量出现了爆炸性的增长。

在整个世界发生数字化巨变的同时,我们的生活也在悄然改变。

基于数据应用的发展,我们享受到了一二十年之前无法想象的便捷——电商、O2O、移动支付、智能家居……

但在何昌华看来,数字化还处在非常初级的、在把线下的数据搬到线上的阶段。

真正需要思考的问题,是未来当高度数据化的社会到来时,我们拥有什么样的能力去处理和应用海量的数据。

这关系到我们是否能够基于数据做到更多的事,催生出更高的智能,进而推动人类社会向着下一阶段发展。

image

这就是他回国加入蚂蚁金服所要寻找的答案。

之所以回来,是因为觉得在这里做的事,往大一点说,是面向人类社会发展下一阶段的探索。

在这场全新的探索中,和海量的数据打交道是必修课,因此,他反复强调着计算能力的重要性:大数据、人工智能、深度学习……无不需要强大的计算能力,否则,向前的探索寸步难行。

人工智能的发展趋势,也是用更大更高更海量的计算,来模拟人的能力。

“真正的人工智能=数据+100倍的计算”,谷歌最新的人工智能模型水平,换算出来相当于数百块 GPU 持续计算一整年。

何昌华和团队一起倾力开发的新一代计算引擎和数据智能平台,实际上是高效计算能力和强大数据处理能力的综合载体。

它自蚂蚁金服海量的业务场景和数据之中诞生,初衷是支撑蚂蚁金服的各项业务,但随着技术逐步成熟,它也可以具备多场景下的通用性。

金融属性带来的高可用性和高安全性,让它可以广泛用于其他行业,应对生活服务场景更加不在话下。

这项工作的意义,往大了说,是在推动社会的变革,虽然听上去是个宏大的命题,但它并非那么高高在上。

“每一项技术都必有它的落脚点。具体到蚂蚁金服,这些技术跟数亿人的日常生活紧密相连。”

每一天,当何昌华自己掏出手机使用支付宝结账付款时,都能直观地感受到自己的工作成果。就像他在谷歌工作时,每天也都会使用搜索功能一样:“自己做出的成果,自己每天都在使用,非常切实地感觉到技术对生活的改变。”

他这样陈述自己的人生理想。在通往理想的征程中,他既站在技术的最前沿,也身处最为日常的场景中,这二者本就密不可分:

用技术改善人的生活,推动社会和人不断往前进化。

原文发布时间为: 2019-06-06
本文作者: 阿里技术
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
24天前
|
存储 SQL 网络协议
C语言C/S架构PACS影像归档和通信系统源码 医院PACS系统源码
医院影像科PACS系统,意为影像归档和通信系统。它是应用在医院影像科室的系统,主要的任务是把日常产生的各种医学影像(包括核磁、CT、超声、各种X光机、各种红外仪、显微仪等设备产生的图像)通过各种接口(模拟、DICOM、网络)以数字化的方式海量保存起来,并在需要的时候在一定授权下能够快速地调回使用。同时,PACS系统还增加了一些辅助诊断管理功能。
40 11
|
1月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
87 2
|
14天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之数据倾斜导致JOB运行时间过长导致系统会自动kill掉job,如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
17天前
|
安全 数据管理 中间件
云LIS系统源码JavaScript+B/S架构MVC+SQLSugar医院版检验科云LIS系统源码 可提供演示
检验科云LIS系统源码是医疗机构信息化发展的重要趋势。通过云计算技术实现数据的集中管理和共享可以提高数据利用效率和安全性;通过高效灵活的系统设计和可扩展性可以满足不同医疗机构的需求;通过移动性和智能化可以提高医疗服务的精准度和效率;通过集成性可以实现医疗服务的协同性和效率。因此,多医院版检验科云LIS系统源码将成为未来医疗机构信息化发展的重要方向之一。
26 2
|
5天前
|
前端开发 Java 关系型数据库
Java医院绩效考核系统源码B/S架构+springboot三级公立医院绩效考核系统源码 医院综合绩效核算系统源码
作为医院用综合绩效核算系统,系统需要和his系统进行对接,按照设定周期,从his系统获取医院科室和医生、护士、其他人员工作量,对没有录入信息化系统的工作量,绩效考核系统设有手工录入功能(可以批量导入),对获取的数据系统按照设定的公式进行汇算,且设置审核机制,可以退回修正,系统功能强大,完全模拟医院实际绩效核算过程,且每步核算都可以进行调整和参数设置,能适应医院多种绩效核算方式。
25 2
|
13天前
|
运维 Cloud Native 持续交付
构建未来:以云原生为基石的分布式系统架构深入理解操作系统的内存管理机制
【4月更文挑战第30天】 随着企业数字化转型的不断深入,传统的IT架构已难以满足市场对于敏捷性、可扩展性和成本效益的需求。云原生技术作为推动这一变革的关键因素,其设计理念和实现方式正在重塑软件开发和运维模式。本文将探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续部署(CI/CD)、以及无服务器计算等,并分析其在构建分布式系统中的作用与挑战。通过实际案例,我们将展示如何利用云原生技术构建高效、弹性和可维护的分布式系统。
|
14天前
|
API 开发者 UED
构建高效微服务架构:后端开发的新趋势移动应用与系统:开发与优化的艺术
【4月更文挑战第30天】 随着现代软件系统对可伸缩性、灵活性和敏捷性的日益需求,传统的单体应用架构正逐渐向微服务架构转变。本文将探讨微服务架构的核心概念,分析其优势,并着重讨论如何利用最新的后端技术栈实现一个高效的微服务系统。我们将涵盖设计模式、服务划分、数据一致性、服务发现与注册、API网关以及容器化等关键技术点,为后端开发者提供一份实操指南。 【4月更文挑战第30天】 在数字化时代的浪潮中,移动应用和操作系统的紧密交织已成为日常生活和商业活动的基石。本文将深入探讨移动应用开发的关键技术、跨平台开发工具的选择以及移动操作系统的架构和性能优化策略。通过分析当前移动应用开发的挑战与机遇,我们将
|
14天前
|
存储 运维 监控
|
15天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
17天前
|
消息中间件 监控 中间件
探索微服务架构下的系统弹性设计
【4月更文挑战第26天】 在当今快速迭代和持续部署的软件发展环境中,系统的弹性设计成为维护高可用性和稳定性的关键因素。本文将深入探讨在微服务架构下如何实现系统弹性,包括识别潜在的故障点、设计容错机制、以及通过实践案例分析提升系统整体的韧性。我们将讨论一系列策略,如服务降级、超时管理、重试策略、断路器模式等,旨在为开发者提供一套实用的系统弹性设计方案。

热门文章

最新文章