自动机器学习 AutoML 技术,可以把特征提取、模型选择、参数调节等机器学习的复杂过程实现自动化。这种能够大幅降低 AI 应用门槛的工具,是目前人工智能业界炙手可热的方向。
第四范式成立之初就开始投入力量研究 AutoML 技术,现在又把自动化 AI 的能力拓展到 AI 应用的大多数环节。
在 6 月 23 日的年度发布会上,第四范式的 AI 操作系统 AIOS 升级到了 2.0 版。更引人关注的是,这家公司还计划在一年内将 95% 核心技术开源出来。
「我们把最核心的数据和算力技术开源给技术社区,它们是开发者最需要的东西。」第四范式联合创始人、首席研究科学家陈雨强说道。
第四范式技术副总裁郑曌等人在发布会上宣布了 AIOS 核心技术的开源。
从零开始,构建 AI 数据引擎
首先是机器学习数据库 OpenMLDB。在 AI 时代,机器学习模型不断高频次演进,这意味着数据供给的重要性不断提升。但即使是在大型科技公司里,我们仍然能看到 SQL 数据处理 10 小时,上线排查 6 个月这样的情况。
「机器学习技术实现理性和瞬时高效的推理判断,但不论事务型数据库、分析型数据库还是传统数仓,在执行这类机器学习任务时都无法保障正确的数据供给」在发布会当日的技术分论坛上,第四范式资深架构师王太泽说道,「由于不是面向机器学习的设计,传统的数据库无法完全覆盖从离线、在线到数据反馈的全流程,对于机器学习应用来说效率较低。」
第四范式帮助超过 120 个场景完成了数据的开发和矫正,这让他们的工程师总结出供给正确数据的解法。
与Hadoop、Oracle、MySQL 等目前流行的数据库相比,第四范式提出的OpenMLDB,定位是为AI 而生的机器学习数据库,而这也是目前行业内的空白。
OpenMLDB 解决了 3 个机器学习的核心数据问题:
首先是离线在线不一致,OpenMLDB 通过统一的数据存储引擎避免了跨数据库的信息交换。另一方面,通过统一的数据计算引擎,这套系统使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致。
其次是时序正确性:在超过一半的场景中,由于传统的数据库系统无区别对待历史经验和未知信息,数据科学家在数据开发过程中产生了时序泄露,在进行规律总结的时候使用到了不该使用、来自于未来的「穿越数据」。OpenMLDB 通过使用自动时序拼接语法和时序泄露检测模块,避免了错误的数据使用。
最后是闭环完整性,机器学习需要将线索演算以及业务推理判断正确与否的反馈沉淀成经验和知识,这需要数据库系统能够具备 将线索推演,以及判断的反馈,进行正确关联的能力。OpenMLDB 通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。
在从传统数据库系统切换到 OpenMLDB 后,开发过程的数据正确性得到了保障。除了性能上的优化外, OpenMLDB 在使用上也很方便,它支持标准 JDBC、Restfull 和 SQL 接口。
「MLDB 是我们的核心能力。在机器学习数据库上,我们的技术是非常领先的,」陈雨强表示。在一些 AI 决策任务中,使用 OpenMLDB 的开发效率可以提升多达 8 倍,相比传统数据库进行线上实时特征计算时,使用 OpenMLDB 能够 3 到 10 倍的性能提升。
为 AI 而生的操作系统
在平台侧,第四范式推出了为 AI 而生的的操作系统内核——OpenAIOS。
AI 的应用深入来看要经历十几个步骤,不同的技术组件支撑了不同的步骤,而每一个步骤对资源的需求又有着较大的不同。第四范式将这些环节的能力面向计算、存储、通信三个方面进行了进一步的抽象和沉淀。
越来越多AI异构芯片的出现,加速了AI异构计算芯片对操作系统内核进行管理的细分需求,把计算负载从操作系统内核调度到集群上不同机器的不同芯片上。除了AI异构芯片外,不同的异构存储介质、异构通信设备都需要操作系统内核进行统一的管理。在异构设备管理的基础之上,保障任务的成功率与资源利用率,需要操作系统内核提供软硬协同的整体调度策略。
为了实现有效的算力,第四范式研究人员实现了异构 Kernel 深度优化、计算协同处理、资源调度等能力:
- 在算力方面,当数据量大到通用计算芯片无法处理时,OpenAIOS 的多级计算内核有针对性的设计硬件之间的协同处理策略,将计算任务进行工作量拆分,通过统一的智能化调度,将拆分后的任务给到不同的专用计算芯片进行处理。
- 在存储方面,因为内存和显存不够导致的任务失败是开发者最常遇到的难题。在不侵入现有应用和代码的情况下,OpenAIOS 在操作系统内部建立了一套面向内存和显存的多级存储内核,通过自动扩容策略和多级缓存机制将存储容量进行扩展,提高了任务的成功率。
- 在通信速率方面,数据的交换效率是人们关注的重点,OpenAIOS 提供了多级通信内核,在机器学习特有的梯度权重交换等环节,提供了低延迟、高吞吐的通信框架, 以及面向异构加速器的专用通信协议,减轻数据通信上的压力。
多设备的情况下,OpenAIOS 可以高效率调动 GPU 算力,提升模型训练时的速度。在 GPU 虚拟化的工作中,第四范式系统率先实现了应用零改造的显存扩容。
第四范式技术副总裁郑曌在发布会上宣布开源机器学习操作系统内核 OpenAIOS,以及面向实时智能决策的分布式机器学习数据库 OpenMLDB,面向开发者提供开箱即用的技术能力。
开源地址:
- OpenMLDB Github:
- https://github.com/4paradigm/OpenMLDB
- OpenAIOS Github:
- https://github.com/4paradigm/openaios-platform
基于OpenAIOS内核,『AIOS社区版』也已经正式上线,AIOS的核心技术都会以「社区版」的形式,免费向开源社区开放, AIOS 社区版拥有多元的开发体验,支持 Visual Studio、VSCode、Jupyter Notebook 等桌面和远程开发工具,内置核心应用和商店,同时支持第三方应用,又使用了原生的 Kubernetes 环境,拥抱所有云原生应用。
『AIOS社区版』:openaios.4paradigm.com
郑曌还宣布了 Knot「中国结」计划:在未来一年之内,公司将实现 95% 以上的核心技术开源开放,并为各家企业共计培养超过一万名 AI 应用开发工程师。
「我们相信 AI 决策是帮助企业转型的新范式,是能够带领企业走向质变的重要方法。第四范式希望能够帮助开发者做越来越多重要的工作」郑曌说道。