云脑科技徐昊:AutoML 工程实践与大规模行业应用 | AI研习社104期大讲堂总结

简介: 关于 AutoML 算法进展、工程落地等问题~

雷锋网(公众号:雷锋网)AI 科技评论按: AutoML 是今年的机器学习的热点,该技术潜力很大,在工程实践能够产生巨大的价值。现阶段,业界主要在探讨 AutoML 的难点与方向阶段,目前还没有一家推出系统性的方案。在工程实践上,AutoML 还没有成为机器学习流程自动化、智能化的主要推动力。在实际应用中,针对大数据大模型的 AutoML 优化在 research 与 engineering 两方面都很缺乏。在本次公开课中,嘉宾分享了关于 AutoML 的算法和工程落地等实际问题。

分享嘉宾:

徐昊,云脑科技核心算法工程师,机器学习与高性能计算专家。在机器学习,自然语言处理,高性能分布式计算、图计算、随机优化等领域有着十余年研发经验。辛辛那提大学计算机工程博士,发表 IEEE/ACM 顶级论文 20 余篇,曾获第八届国际低能耗电子器件会议唯一最佳论文奖。曾任 ANSYS 软件首席工程师,主持了 10 亿级节点的分布式概率图计算系统的开发。

公开课回放地址:

http://www.mooc.ai/course/607/learn?lessonid=2939#lesson/2939

分享主题:AutoML 工程实践与大规模行业应用

分享提纲:

AutoML 业界动态

AutoML 算法前沿进展

AutoML 大规模工程应用落地问题

云脑科技高效 AutoML 系统

云脑 AutoML 在推荐,、游戏,、金融等领域的应用

雷锋网 AI 科技评论将其分享内容整理如下:

AutoML 在 2018 年是一个比较火的话题,salesforce 和微软都开源了 AutoML 的库,有很多开源软件包,如 AUTO KERAS,Auto-Sklearn 和 AutoWeka。

TB1zPNoAmzqK1RjSZFjXXblCFXa.png

在算法上,今年在科研上比较受欢迎的是 NAS 算法,主要涉及神经网络结构方面的搜索。在超参的搜索方面,研究比较多的是 Model Based Sequential Optimization,基本思路是在超参空间里面先采样后建模,选择下一个提升概率比较高的超参点,比较流行的模型是贝叶斯和 TPE 模型等。Google 的 paper《Hyperband》上一种简单的 Bandit 方法使用的较多,基本思路是先在超参空间撒点采样,然后对每个点进行训练,训练结果更好的点可以获得更多的资源。还有 Population based Algorithm 算法,这些都是组合优化问题比较经典的解法。

TB1hCJoAhTpK1RjSZFGXXcHqFXa.png

在工程应用的落地方面,AutoML 还处于实验阶段,模型的优化和调试效率有一定的问题,但是工程潜力巨大。它的缺点是:计算量巨大,不能满足项目快速迭代的需求;目前仅限于调参问题;在搜索和优化的过程中像一个黑盒子,人机交互较少。因此,AutoML 在大项目中应用落地还存在一定的问题。

TB1aL8kAlLoK1RjSZFuXXXn0XXa.png

在工程实践中落地要考虑哪些因素呢?首先是精确度、工程迭代速度、Serving 压力,然后如果是深度学习,还要考虑深度学习优化加速,最后,线上模型的动态效果也需要考虑,因为线上模型的表现和线下的可能不一样。那么,对应的优化环节是下图左边的样本效率、特征效率、模型选择、优化效率和线上策略效率。

TB1u4NqAbvpK1RjSZPiXXbmwXXa.png

云脑在这些优化环节是如何做的?

样本效率

样本效率是机器学习最核心的问题之一,机器学习本质上是一个采样加拟合的过程,但是这个过程在很多系统中并不是一次性完成的。很多情况下,样本的处理都很简单,大量样本没有用或者效率较低。样本的选择对精度的影响较大,其数量对耗时的影响是线性的。

我们把信息量大的样本留下来,信息量小的去掉。如何衡量样本信息量?可以从无监督角度和业务角度考察样本的信息量。

TB14DxQAhnaK1RjSZFtXXbC2VXa.png

下面来看一个例子。下图是游戏点击率的线上数据。这是一个重度玩家在 11 天内楼兰游戏时对不同游戏的点击和曝光数。如果我们需要分析用户的喜好,只需要输入几百个甚至几十个样本点,而不需要输入全部 3000 个样本点,这就是样本的静态效率可以提升的空间。

TB1JcXqAmzqK1RjSZFHXXb3CpXa.png

样本难度也是影响样本效率的重要因素,提高模型精度的关键在于获得更多的复杂样本。其次,需要去掉噪声样本。那么如何分析样本的难度?一般使用模型预测值和真实标签 cross entropy。保持原有数据的分布对样本训练过程来说非常重要。

特征效率

特征(尤其是稀疏特征)对训练数据的效率影响很大。在项目工期紧张的时候,把所有的特征扔进模型学习是不实际的,因此我们进行定量分析。维度大的特征对训练的影响非常大。稀疏特征也需要重点分析。对过于稀疏的特征值截断处理也可以提高特征效率。我们现在比较重视变长特征的处理。变长特征通常是在嵌入以后取平均值或求和,变长特征长的样本对 batch 的影响较大。

TB1DQxsAkvoK1RjSZFDXXXY3pXa.png

AutoML 自动优化效率

AutoML 是在 5 维度超大空间联合分布里面寻找最优点:数据维度、特征维度、模型维度、优化维度和线上策略维度。传统方法里面,人负责数据采样、特征工程和调参,只有深度学习模型是自动学习的。而前沿的算法:Model based sequential optimization 基本上是建模加采样的方法,它假设整个超参空间是连续的;Bandit based 是一种纯采样的算法,其假设是优化空间优化过程中的精度的连续的,其缺点在于它是纯采样,没有模型。而实际项目中由于各种原因,全局最优解是个非常复杂的问题。

TB1aoXlAmzqK1RjSZPxXXc4tVXa.png

在实际工程中,还需要考虑机器学习全流程优化的问题。它包括数据清洗、特征工程和模型调试中的工程迭代效率。我们还需要考虑线上 serving 效率、线上策略优化和深度学习优化加速问题。

TB1HBlrAmzqK1RjSZFpXXakSXXa.png

云脑的 AutoML 系统全貌如下图所示。

TB1YZ0vAkzoK1RjSZFlXXai4VXa.png

云脑 AutoML 在多个领域都有应用:

TB1x14qAbrpK1RjSZTEXXcWAVXa.png

雷锋网

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
6天前
|
人工智能 自然语言处理 Java
IDEA + 通义灵码AI程序员:快速构建DDD后端工程模板
本文介绍如何使用 IntelliJ IDEA 和阿里云的通义灵码 AI 程序员,快速搭建基于 DDD 领域驱动设计的后端工程模板。通过安装和配置 IDEA、JDK、Maven 及通义灵码插件,用户可以借助 AI 自动生成项目结构和代码。然而,测试发现 AI 生成的代码存在依赖问题,需手动修正才能成功运行。最终,项目包括 Spring Boot、Maven 和 Deepseek API 集成,可调用大模型进行预测。尽管 AI 工具提高了开发效率,但目前仍需人工干预确保项目顺利运行。
77 3
 IDEA + 通义灵码AI程序员:快速构建DDD后端工程模板
|
6天前
|
人工智能 Kubernetes 测试技术
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
SWE-Lancer 是 OpenAI 推出的基准测试,评估语言模型在自由职业软件工程任务中的表现,涵盖真实任务、端到端测试和多选项评估。
43 4
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
|
23小时前
|
人工智能 Java API
Java也能快速搭建AI应用?一文带你玩转Spring AI可落地性
Java语言凭借其成熟的生态与解决方案,特别是通过 Spring AI 框架,正迅速成为 AI 应用开发的新选择。本文将探讨如何利用 Spring AI Alibaba 构建在线聊天 AI 应用,并实现对其性能的全面可观测性。
|
8天前
|
存储 人工智能 程序员
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
138 9
|
6天前
|
人工智能 BI
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
|
9天前
|
数据采集 人工智能 安全
阿里云携手DeepSeek,AI应用落地五折起!
近年来,人工智能技术飞速发展,越来越多的企业希望借助AI的力量实现数字化转型,提升效率和竞争力。然而,AI应用的开发和落地并非易事,企业往往面临着技术门槛高、成本投入大、落地效果难以保障等挑战。
59 1
|
6天前
|
人工智能 自然语言处理 Java
IDEA + 通义灵码 AI 程序员:快速构建 DDD 后端工程模板
本文介绍了如何利用 IntelliJ IDEA 编辑器和阿里云的通义灵码 AI 程序员,快速搭建一个基于 DDD 领域驱动架构的后端工程模板。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI 浪潮席卷中国年,开启科技新春新纪元
AI 浪潮席卷中国年,开启科技新春新纪元
|
1月前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
231 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
24天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
117 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章