云脑科技徐昊:AutoML 工程实践与大规模行业应用 | AI研习社104期大讲堂总结

简介: 关于 AutoML 算法进展、工程落地等问题~

雷锋网(公众号:雷锋网)AI 科技评论按: AutoML 是今年的机器学习的热点,该技术潜力很大,在工程实践能够产生巨大的价值。现阶段,业界主要在探讨 AutoML 的难点与方向阶段,目前还没有一家推出系统性的方案。在工程实践上,AutoML 还没有成为机器学习流程自动化、智能化的主要推动力。在实际应用中,针对大数据大模型的 AutoML 优化在 research 与 engineering 两方面都很缺乏。在本次公开课中,嘉宾分享了关于 AutoML 的算法和工程落地等实际问题。

分享嘉宾:

徐昊,云脑科技核心算法工程师,机器学习与高性能计算专家。在机器学习,自然语言处理,高性能分布式计算、图计算、随机优化等领域有着十余年研发经验。辛辛那提大学计算机工程博士,发表 IEEE/ACM 顶级论文 20 余篇,曾获第八届国际低能耗电子器件会议唯一最佳论文奖。曾任 ANSYS 软件首席工程师,主持了 10 亿级节点的分布式概率图计算系统的开发。

公开课回放地址:

http://www.mooc.ai/course/607/learn?lessonid=2939#lesson/2939

分享主题:AutoML 工程实践与大规模行业应用

分享提纲:

AutoML 业界动态

AutoML 算法前沿进展

AutoML 大规模工程应用落地问题

云脑科技高效 AutoML 系统

云脑 AutoML 在推荐,、游戏,、金融等领域的应用

雷锋网 AI 科技评论将其分享内容整理如下:

AutoML 在 2018 年是一个比较火的话题,salesforce 和微软都开源了 AutoML 的库,有很多开源软件包,如 AUTO KERAS,Auto-Sklearn 和 AutoWeka。

TB1zPNoAmzqK1RjSZFjXXblCFXa.png

在算法上,今年在科研上比较受欢迎的是 NAS 算法,主要涉及神经网络结构方面的搜索。在超参的搜索方面,研究比较多的是 Model Based Sequential Optimization,基本思路是在超参空间里面先采样后建模,选择下一个提升概率比较高的超参点,比较流行的模型是贝叶斯和 TPE 模型等。Google 的 paper《Hyperband》上一种简单的 Bandit 方法使用的较多,基本思路是先在超参空间撒点采样,然后对每个点进行训练,训练结果更好的点可以获得更多的资源。还有 Population based Algorithm 算法,这些都是组合优化问题比较经典的解法。

TB1hCJoAhTpK1RjSZFGXXcHqFXa.png

在工程应用的落地方面,AutoML 还处于实验阶段,模型的优化和调试效率有一定的问题,但是工程潜力巨大。它的缺点是:计算量巨大,不能满足项目快速迭代的需求;目前仅限于调参问题;在搜索和优化的过程中像一个黑盒子,人机交互较少。因此,AutoML 在大项目中应用落地还存在一定的问题。

TB1aL8kAlLoK1RjSZFuXXXn0XXa.png

在工程实践中落地要考虑哪些因素呢?首先是精确度、工程迭代速度、Serving 压力,然后如果是深度学习,还要考虑深度学习优化加速,最后,线上模型的动态效果也需要考虑,因为线上模型的表现和线下的可能不一样。那么,对应的优化环节是下图左边的样本效率、特征效率、模型选择、优化效率和线上策略效率。

TB1u4NqAbvpK1RjSZPiXXbmwXXa.png

云脑在这些优化环节是如何做的?

样本效率

样本效率是机器学习最核心的问题之一,机器学习本质上是一个采样加拟合的过程,但是这个过程在很多系统中并不是一次性完成的。很多情况下,样本的处理都很简单,大量样本没有用或者效率较低。样本的选择对精度的影响较大,其数量对耗时的影响是线性的。

我们把信息量大的样本留下来,信息量小的去掉。如何衡量样本信息量?可以从无监督角度和业务角度考察样本的信息量。

TB14DxQAhnaK1RjSZFtXXbC2VXa.png

下面来看一个例子。下图是游戏点击率的线上数据。这是一个重度玩家在 11 天内楼兰游戏时对不同游戏的点击和曝光数。如果我们需要分析用户的喜好,只需要输入几百个甚至几十个样本点,而不需要输入全部 3000 个样本点,这就是样本的静态效率可以提升的空间。

TB1JcXqAmzqK1RjSZFHXXb3CpXa.png

样本难度也是影响样本效率的重要因素,提高模型精度的关键在于获得更多的复杂样本。其次,需要去掉噪声样本。那么如何分析样本的难度?一般使用模型预测值和真实标签 cross entropy。保持原有数据的分布对样本训练过程来说非常重要。

特征效率

特征(尤其是稀疏特征)对训练数据的效率影响很大。在项目工期紧张的时候,把所有的特征扔进模型学习是不实际的,因此我们进行定量分析。维度大的特征对训练的影响非常大。稀疏特征也需要重点分析。对过于稀疏的特征值截断处理也可以提高特征效率。我们现在比较重视变长特征的处理。变长特征通常是在嵌入以后取平均值或求和,变长特征长的样本对 batch 的影响较大。

TB1DQxsAkvoK1RjSZFDXXXY3pXa.png

AutoML 自动优化效率

AutoML 是在 5 维度超大空间联合分布里面寻找最优点:数据维度、特征维度、模型维度、优化维度和线上策略维度。传统方法里面,人负责数据采样、特征工程和调参,只有深度学习模型是自动学习的。而前沿的算法:Model based sequential optimization 基本上是建模加采样的方法,它假设整个超参空间是连续的;Bandit based 是一种纯采样的算法,其假设是优化空间优化过程中的精度的连续的,其缺点在于它是纯采样,没有模型。而实际项目中由于各种原因,全局最优解是个非常复杂的问题。

TB1aoXlAmzqK1RjSZPxXXc4tVXa.png

在实际工程中,还需要考虑机器学习全流程优化的问题。它包括数据清洗、特征工程和模型调试中的工程迭代效率。我们还需要考虑线上 serving 效率、线上策略优化和深度学习优化加速问题。

TB1HBlrAmzqK1RjSZFpXXakSXXa.png

云脑的 AutoML 系统全貌如下图所示。

TB1YZ0vAkzoK1RjSZFlXXai4VXa.png

云脑 AutoML 在多个领域都有应用:

TB1x14qAbrpK1RjSZTEXXcWAVXa.png

雷锋网

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
10天前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
12天前
|
消息中间件 人工智能 Kafka
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
137 19
|
6天前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
26 2
|
6天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI 上下文工程是管理大模型输入信息的系统化框架,解决提示工程中的幻觉、上下文溢出与信息冲突等问题。通过上下文的采集、存储、加工与调度,提升AI推理准确性与交互体验。AnalyticDB PostgreSQL 版提供增强 RAG、长记忆、Supabase 等能力,助力企业构建高效、稳定的 AI 应用。
|
13天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
401 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
6天前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
5天前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
10天前
|
人工智能 监控 Java
Spring AI Alibaba实践|后台定时Agent
基于Spring AI Alibaba框架,可构建自主运行的AI Agent,突破传统Chat模式限制,支持定时任务、事件响应与人工协同,实现数据采集、分析到决策的自动化闭环,提升企业智能化效率。
Spring AI Alibaba实践|后台定时Agent

热门文章

最新文章