五年落地超过八千家客户后,他们终于找到了AI规模化应用的完整方法论

简介: AI 能力在产业端的规模化落地是否存在可能?第四范式用五年时间给出了答案——在金融、零售、医疗等行业领域积累了超过八千家行业客户 AI 落地业务经验。“数据治理难、科学家稀缺、业务价值不佳以及算力成本负担重,是企业 AI 转型中四个最常见的坑,”第四范式创始人兼 CEO 戴文渊谈道,“这些问题归根结底是因为缺少基于规范和标准的基础设施。”为此,他们从实战经验中提炼出一套完整方法论——从底层操作系统到基于自研 AI 加速卡的一体机,从模型开发工具到业务开发工具——并将其标准化地复制给更为广泛的产业客户与市场需求。

微信图片_20211204111657.jpg

第四范式创始人兼CEO戴文渊
“是的,我刚从客户那里出来”。


电话那头,赶着搭高铁的胡时伟气喘吁吁,“他们是一家面向大学生的 APP 公司,平时日活也就百万左右,疫情期间达到了四百万,线上流量爆增,需求非常典型。”
胡时伟是第四范式的联合创始人,同时也是公司技术层面的首席架构师。这几个月以来,频繁穿梭于不同客户之间成为第四范式各个负责人的日常。
第四范式是一家面向人工智能机器学习平台的公司,来自于一帮年轻的研究人员,特别是的,他们曾为百度、今日头条等中国顶尖的互联网公司打造了最早一批的深度学习技术框架,手握彼时产业端稀缺的 AI 业务开发经验。
2014 年底,他们创立了自己的公司“第四范式”,并展现出惊人的成长速度和落地能力。五年的时间里,他们在金融、零售、医疗等行业领域积累了超过 8000 家行业客户。今年 4 月,第四范式完成 C 轮总计 2.3 亿美元融资,估值约为 20 亿美元。
据 IDC2019 年《中国机器学习开发平台市场评估》显示,第四范式在机器学习平台市场占有率位于第一,领先于 BAT、微软和 AWS 等公司与平台。
在这背后,是机器学习模型与框架等偏向底层的 AI 能力走向业务端的突破,是 AI 价值切实落地到面向用户的场景里。


一、疫情催生流量格局剧变,如何解围?


2020 年,席卷全球的新冠疫情当属影响最大的市场变量,隔离与封城让线下产业举步维艰;而与此同时,线上办公新增 3 亿人,观看直播的人次达到 500 亿,一场线下用户向线上流量的大规模迁移或许只发生在一瞬间。黑天鹅突如其来,促使线下经营者和线上流量主都不得不对重新深思 “在线化” 主题,胡时伟和同事们接触多了太多这样的声音。“一方面,他们迫切地想要活下来;另一方面,如果能活下来,他们必须思考要做出哪些改变。”在胡时伟看来,他们所面临的共同挑战主要集中在三个层面:

  • 移动化以后,如何找到用户;
  • 找到用户以后,如何经营用户;
  • 如何竞争获取用户的碎片化时间。


“比如传统零售业,店家熟知如何选址才能会有丰富的人流;到了线上,就是有效流量获取的问题,而这可能是线下店主所完全不了解的。”胡时伟说道。
此外,传统线下行业的竞争仅限于商圈,同品类的店铺,但到了线上,竞争泛化为无差异的用户的时间竞争。这些竞争或许发生在今日头条与银行应用之间,也可能是电商与阅读类应用的竞争。业务与交易的过程被打碎,用户的注意力稍不留意就被偷走。
种种挑战,无论是对于初涉移动互联网的线下店家,还是年轻的线上流量主,要想快速提出有效的解决方案都不是件容易事。

微信图片_20211204111703.jpg

胡时伟,第四范式联合创始人兼首席架构师。


胡时伟和同事们想出了办法。不过主角并不是他们,而是封装了人工智能能力的功能包——“相当于为每家企业提供一个 VIP 专员为他们解决业务问题”。具体来看,这些问题被梳理为增长、留存、变现三大类,每一类问题都关联了相应的自动化功能,比如要实现用户留存,可以通过关联推荐、热点推荐、千人千面等智能推送能力提升活跃度。这些功能的影子最早出现在今日头条等信息流里,它们正是出自第四范式的早期团队。现在它们被定义地更加清晰和准确,其适用的场景也从内容领域拓宽到各行各业,成为第四范式面向企业用户的首个业务系统应用——天枢。

微信图片_20211204111707.png


事实上,第四范式的这些单点能力已在多个领域落地并取得了不错成效,包括为在餐饮领域,百胜餐饮(KFC 母公司)提供 APP 点餐推荐功能,使其客均单价得到提升。在媒体领域,第四范式累计服务上千家媒体客户,每天为 2 亿人次提供千人千面的浏览体验。

微信图片_20211204111710.jpg

第四范式总裁  裴沵思


二、管理 AI 业务的第一步:让数据 AI Ready

要让人工智能的能力轻松落地到客户端。在应用之下,还需要更为底层的能力支撑,以降低算力和建模的高门槛,让数据成为人工智能系统真正可用的数据。
第四范式将这样的平台能力集成为「AIOS」操作系统,脱胎于全流程 AI 平台「先知」——从最初解决数据建模问题,到实现模型快速上线,以及现在提供端到端的方案——该平台成为驱动第四范式能力升级的重要引擎。

微信图片_20211204111713.png

和面向个人计算用户的 Windows 操作系统类似,「AIOS」操作系统主要面向企业用户,用于人工智能业务的管理,它类似于一套数据中台的系统应用,不过这里的「数据」有些特殊——它们是 AI Ready 的数据。
胡时伟解释,基于这种被特殊定义的数据形式和产品化模式,能够为企业的业务数据和机器学习系统之间架起一座桥梁,以解决人工智能落地实际业务过程中的「数据治理」的难题。
这套理论听来有些晦涩,数据还有「AI Ready」和「非 AI Ready」之分?这和「数据治理」有何关联?
胡时伟进一步解释,所谓「数据治理」,即指在 AI 数据的采集和传输过程,进行治理和规范化,很大程度上对应了数据清洗和数据集成等工作。实际上,这些环节在 AI 落地应用过程中耗费了大量人力和时间,因为 AI 应用的本质就是数据的问题。
回顾过往的市场与客户经验,胡时伟坦言,「从传统案例来看,机器学习这件事情,失败的概率其实非常大」。但他同时指出,这其中 90% 以上的苦恼都集中在数据问题,有时客户甚至无法意识到是自己的出了问题。
按照数据 AI Ready 的思路,「数据治理」的核心就在于将「非 AI Ready」的数据转换成「AI Ready」数据。胡时伟将其比喻为「用 Word 打开 PDF 格式文档的乱码问题」,第一步便是先转换成对应的正确格式文档。

微信图片_20211204111717.jpg


而第四范式团队的创新之处就在于,首次将何为机器能够读懂的「正确格式文档」定义清晰。胡时伟将其称之为「AIOS 最为重要的设计之一」。
「将大幅降低 AI 业务和其他 IT 系统之间的连接成本」,他说道,「用企业内部的数据形态去构建成 AI 数据,与之对应的 AI 业务就能自动地连接其他数据资源。」
而这恰恰是现有的传统数据管理与分析软件所无法实现的功能盲区,因为传统管理软件与 AI 业务管理软件的管理目标和服务对象不同,形成了原理和架构上的差异——前者无法理解数据一致性和有序性问题。
胡时伟以金融领域中机器学习对于欺诈行为的识别举例:机器学习通常需要从数据库调取历史交易数据进行学习和建模,用于判断和检测新的交易。但很多时候,由于历史数据在数据库中进行了格式处理,所以机器无法再辨认。(金融领域是第四范式最早开拓的优势市场,目前 80% 以上的头部银行都是第四范式的客户。)
除了在系统底层的设计思路革新之外,第四范式还提供了一套十分简易化的自动化建模平台——HyperCycle,基于团队积累的高维机器学习框架与 AutoML(自动机器学习)算法,将 AI 数据的分析过程简化为行为、反馈、学习、应用四个步骤。

微信图片_20211204111721.jpg

与满是代码行的编程界面有所不同,HyperCycle 的界面和 IU 设计简洁易懂。


相比此前谷歌云、微软云等云计算推出的 AutoML 线上服务,胡时伟认为,HyperCycle 工具软件的成熟性与适用场景更为广泛。
三、从全生命周期看 AI 应用:谁才是「算力短板」
接触的客户与场景越多,对于 AI 应用落地的难点与痛点理解便越深刻,而在之中,算力已经成为 AI 落地话题绕不开的话题。
不止步于软件与算法能力的锻造,尤其在接触了广泛与深入的客户需求讨论后,这两年第四范式开始向硬件层面探索,并与今年推出第二代 SageOne 算力平台——SageOne 和 SageOne 领航两大系列,后者完全基于中国 AI 基础设施的软硬件设计。

微信图片_20211204111725.jpg

第四范式副总裁郑曌在接受机器之心采访时表示,SageOne 领航算力平台最早由客户提出,满足对于数据的敏感性、合规性、安全性的更高需求。


目前,SageOne 领航通过硬件与软件、算法的高效适配,能够在性能上与国际主流计算平台性能对齐。郑曌透露,目前合作伙伴包括华为、寒武纪、海光等。

微信图片_20211204111729.jpg

此外,SageOne Advance 系列加入了第四范式自研人工智能加速卡 ATX900。经过全面测试验证,在风控反欺诈、反洗钱和智能营销等场景的性能比传统 AI 构建方案平均提升 4-10 倍。
与市面上已有的 AI 软硬一体加速方案不同,第四范式更看重从 AI 应用的全生命周期着手找到算力短板,并将之攻克。「传统方案主要聚焦在训练和推理两个环节的性能优化,但我们发现,AI 业务对于算力的需求贯穿了整个 AI 全流程生命周期。」
以数据数据准备环节为例,在软件层面与 AIOS 系统的数据治理优化相对应;在硬件层面,通过 ATX900 设计提出针对性的优化提速方案:包括提升 FE 过程中数据落盘的压缩效率,性能最高提升 10 倍;自研 GBDT 模型训练加速(FlashGBM),加速 GBDT 模型训练速度;采用自动调惨技术,自动优化模型训练超参数,最高提升高达 19 倍等。
通过一系列的软硬件深度优化,SageOne 对比传统算力服务器设计,在保证性能一致的基础上,将算力成本降低至 1/10。据介绍,在某连锁餐饮企业实际应用场景中,SageOne 以 8 台替换了 88 台通用服务器集群。

微信图片_20211204111732.jpg


郑曌表示,目前行业客户对于 AI 应用与基础设施的建设需求多种多样,拓宽产品的维度提供更为完整的解决方案是市场的需求所在。比如从横向维度来看,互联网成熟度较高的客户倾向于软件方案,非互联网客户因为基础设施薄弱,加入 AI 应用之后算力成本势必成为其负担,便需要完整的软硬一体方案。
整体来看,第四范式所提出的整套 AI 落地软硬件产品逻辑在于,从底层系统出发,从实际算力短板着手,填平算力与技术的沟壑,提供从数据到建模,从数据到应用的「傻瓜式」开发工具。
他们打破了新增 AI 业务与企业现有 IT 业务的高墙,得以让 AI 数据与计算在企业系统里自由穿梭与融合。我们有理由相信,AI 技术终将走下神坛,成为企业客户真正触手可及的业务能力。

相关文章
|
14天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
88 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
8天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
732 14
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
5天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
116 27
|
4天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
48 14
|
8天前
|
人工智能 自然语言处理 数据可视化
Cursor 为低代码加速,AI 生成应用新体验!
通过连接 Cursor,打破了传统低代码开发的局限,我们无需编写一行代码,甚至连拖拉拽这种操作都可以抛诸脑后。只需通过与 Cursor 进行自然语言对话,用清晰的文字描述自己的应用需求,就能轻松创建出一个完整的低代码应用。
520 8
|
6天前
|
人工智能 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 7.4 应用实践之 AI大模型外脑
PolarDB向量数据库插件通过实现通义大模型AI的外脑,解决了通用大模型无法触达私有知识库和产生幻觉的问题。该插件允许用户将新发现的知识和未训练的私有知识分段并转换为向量,存储在向量数据库中,并创建索引以加速相似搜索。当用户提问时,系统将问题向量化并与数据库中的向量进行匹配,找到最相似的内容发送给大模型,从而提高回答的准确性和相关性。此外,PolarDB支持多种编程语言接口,如Python,使数据库具备内置AI能力,极大提升了数据处理和分析的效率。
27 4
|
6天前
|
人工智能 自然语言处理 搜索推荐
现在最火的AI是怎么应用到体育行业的
AI在体育行业的应用日益广泛,涵盖数据分析、伤病预防、观众体验、裁判辅助等多个领域。通过传感器和可穿戴设备,AI分析运动员表现,提供个性化训练建议;预测伤病风险,制定康复方案;优化比赛预测和博彩指数;提升观众的个性化内容推荐和沉浸式观赛体验;辅助裁判判罚,提高准确性;发掘青训人才,优化训练计划;智能管理场馆运营和票务;自动生成媒体内容,提供实时翻译;支持电竞分析和虚拟体育赛事;并为运动员提供个性化营养和健康管理方案。未来,随着技术进步,AI的应用将更加深入和多样化。
|
22天前
|
人工智能 自然语言处理 JavaScript
微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切
微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。
252 15
|
20天前
|
人工智能 开发者 Python
Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用
Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。
122 9
|
26天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
81 5

热门文章

最新文章