榜单上新!快来康康黑盒优化技术评测基准RABBO!

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 在面对一些极其复杂的、目标函数不可解析的优化问题时,我们经常如坠入茫茫黑夜、不知道路在何方,黑盒优化技术正是冲破这茫茫黑夜,将我们带向最优解的一项技术。

引言


在面对一些极其复杂的、目标函数不可解析的优化问题时,我们经常如坠入茫茫黑夜、不知道路在何方,黑盒优化技术正是冲破这茫茫黑夜,将我们带向最优解的一项技术。


作为优化领域的一个分支,黑盒优化所针对的问题往往不具备明显的可利用的数学结构,例如可导、线性、凸性等,甚至目标函数不可解析,比如一个复杂系统的性能、一个算法的最终表现、一个决策的优劣等。


黑盒优化问题,泛指目标函数难以从数学上解析表达,缺少可直接利用的梯度信息,仅可利用目标函数输入和对应输出函数值进行最优解搜索的优化问题。简单来讲,黑盒优化架构可以用图1的架构图来表示,我们假设我们要求解的问题不好描述,就把这个问题做成一个仿真系统,这个系统可以根据输入的变量值(“候选解”)来给出对应的评价(“观测值”),然后黑盒优化算法,就是接上这个仿真系统,通过不断地去提供候选解和得到观测值,来搜索可能的最优表现的候选解。


图片.png

图1: 黑盒优化求解示意图


众多行业复杂场景中(例如供应链、交通、制造、能源、云计算等),黑盒优化都是实现系统智能决策的关键技术,近年来越来越受国内外大厂的重视[1],然而目前业界还没有专门针对黑盒优化技术开展的评测基准,在此背景下阿里巴巴达摩院决策智能团队联合阿里云天池联合推出了RABBO挑战榜。RABBO的推出为领域内研发团队提供一个“研发工具”和“竞技平台”,目标是打造国内外最具活力的的黑盒优化Benchmark榜单:

图片.png


RABBO介绍


RABBO全名是Real-Aplication Black-Box Optimization benchmark,是由达摩院决策智能团队推出了业界首个黑盒优化技术benchmark,RABBO为研究人员提供了针对黑盒优化问题的数学建模和优化求解的思路,通过提供黑盒优化接口规范代码、实际应用背景的测试问题和效果评测的方案,帮助领域研发人员快速学习和研发优化算法。


RABBO一期评测基准包括了4大类数据集任务,后期将会持续拓展新的问题场景:


图片.png

图2: RABBO四大类数据集任务


金属冶炼配比优化数据集


问题背景:传统制造业中存在大量原料配比优化的问题场景,我们需要通过优化生产材料的配比使产品达到质量要求的同时控制生产过程中能源消耗等成本。该类配比优化问题往往内在机理、生产流程复杂,通过进行经验性的配比实验搜索最优方案难度较大,代价极高。在具备问题模型仿真器的条件下,使用黑盒优化工具进行求解可以极大提高优化效率,降低优化成本。


在冶炼行业中,转炉炼钢以铁水、废钢、铁合金为主要原料,不借助外加能源,靠铁液本身的物理热和铁液组分间化学反应产生热量而在转炉中完成炼钢过程[2]。对于不同钢产品的类型(如低碳钢、高碳钢、低合金钢等),钢水中各元素含量的要求有所差异。通常要求铁水中含硫量较低,含硅量较高以及具有较高用于优化造渣所需的锰量。在转炉炼钢工艺中,有一个转炉配合金的环节:即往钢水中投入一定量的不同合金,通过氧化合金化来调节钢水中的锰、硅、碳、硫、磷等元素的含量,使之满足下一工序(或成品钢种)的元素含量要求。在配加某种目标元素时往往有多种合金可选择,不同合金选择会对其他元素含量带来不同影响,对应的采购价格也不相同。理论上,存在多种合金配比组合可达到最终各元素含量要求,而使总成本最低的配比组合仅有一个。


image.gif图片.png

图3. 炼钢合金配比问题示意图


问题建模:本题中的合金配比优化场景考虑锰硅、硅铁、金属锰、高碳锰铁、中碳锰铁5种合金,并试图回答这样一个问题:如何优化不同合金之间的配比,使得投入合金之后钢水中硅、锰元素的含量在特定目标范围之内,且投入的合金总成本最低?由于冶炼过程涉及元素间复杂化学过程,投入合金后的钢水成分还取决于环境温度和投入时机,并不能当作简单的直接混合来处理,在实际项目中,投入量和钢水成分之间的复杂关系通过仿真模型来进行预测。由于这些仿真模型并没有显式可用的数学结构,故该问题需要使用黑盒优化方法来进行建模求解。图4为基于仿真器的黑盒优化问题建模示意。


image.gif图片.png


图4. 炼钢合金配比优化问题建模示意图


image.gif

火星车路径规划数据集


问题背景:2021年5月22日10时40分,中国自主研发的第一辆火星车“祝融号”驶离了于一周前成功软着陆的天问一号火星探测器,开始了其在火星上的重要使命:在轨测试和巡视探测。截至2021年7月23日,“祝融号”火星车已在火星上工作了68个火星日,累计行驶585米,并先后传回“着陆点全景”、“地形地貌”、“中国印迹”和“着巡合影”等影像图[3]。路径规划的示意图如下:


image.gif图片.png

图5. 行驶路线图示意


由于地外星体环境的特殊性与复杂性,火星车及同类地外探测车(如月球车)在完成勘探任务时需要具备环境感知、自主导航、路径规划等多方面技术能力。其中,路径规划试图解决这样一个问题:即根据当前的位置姿态、环境感知结果及系统所指定的目标点进行局部路径点的分解和局部路径规划[4]。首先,路径规划需要考虑对地表障碍物的有效规避。欠优的路径规划方案可能导致火星车与障碍物相撞发生侧翻,进而造成探测任务失败,付出惨重代价。此外,地外探测车在能源供给、存储方面的限制也给按规划路径行驶所产生的能耗提出了额外的要求。


问题建模:本题借鉴了[5]中月球车路径规划问题的设计,将火星车的路径规划问题进行了一定程度的简化和抽象,旨在通过确定一序列二维平面上的坐标,为火星勘探车制定一个避障行驶路线。给定一组二维坐标序列,本题通过BSpline拟合得到对应的轨迹路线,并计算运行轨迹的成本。若出现轨迹中点坐标与障碍物坐标重叠的情况,则给予一定惩罚。同时,本题要求坐标序列的第一个点与最后一个点分别尽量接近问题设置中的起始点和终点。问题使用奖励函数对一组坐标序列进行评估,该函数具有非光滑、不连续、梯度难以求取的特征,属于典型的黑盒函数,需使用黑盒算法进行求解。


风场微观选址数据集


问题背景:2020年下半年,中国政府先后提出了“二氧化碳排放力争2030年前达到峰值”,“力争2060年前实现碳中和”的“双碳”目标,并将其上升为国家战略[6]。在此背景下,优化能源结构、布局发展新能源已被公认为是实现“双碳”目标的主要驱动力和必然选择。风能作为新能源中的一种,具有安全性高、储量巨大,分布极广的优点。近年来,风力发电技术也得到了迅速的发展与推广。风机微观选址问题旨在通过优化每台风力发电机组在风电场的位置,最大限度利用风能,降低风机尾流效应带来的影响,最大化风场发电量。


风机尾流效应指一台风机获取风能的同时在其下游形成风速下降的尾流区。若尾流区内存有下游风机,则下游风机的输入风速(图4中U)将远低于上游风机的输入风速(图4中V)。实际中一台风机往往会受到上游多台风机对应尾流效应的叠加影响(如图6中所示,风机2受风机1的尾流影响,风机3受风机1和2的尾流影响)。显然,尾流效应会造成风电场内风速分布不均,影响风电场内每台风机运行状况,进一步影响风电场运行工况及输出(位于下游尾流区的风机发电量会受到显著削减)。研究表明,尾流效应可导致高达20%的风机功率损失[7]。


image.gif

图6. 尾流效应示意图。D为上游风机直径,V代表上游风机的输入风速,U代表下游尾流区内的风速


图片.png

image.gif

图7. 海上风电场实际尾流效应示意图[8]


问题建模:一定时间段内风场的尾流效应由风场的风速、风向及风机组的几何排布所决定。单一风机的发电功率与尾流效应下风机输入风速之间的关系由非线性、非光滑函数进行刻画。基于上述因素,风场年发电量与风机位置坐标之间的函数关系无法使用数学解析表达式直接描述,为黑盒函数。因此,风机微观选址优化问题适合使用基于仿真器的黑盒优化算法求解。


本题采用基于Jensen's尾流模型的风场年发电量仿真器[9]。在输入一组风机的位置坐标(即一组变量值)后,仿真器可以基于一年的风速风向数据仿真输出风场年发电量值(即目标函数值)。该过程即被看作为一次采样。黑盒优化算法可通过不断地进行多次采样搜索得到使年发电量尽可能大的风机排布策略。基于风场仿真器的黑盒优化问题建模如下图8所示。


image.gif图片.png


图8. 风场微观选址问题建模示意图


image.gif

经典题目数据集

经典题目集是根据一些经典黑盒优化测试函数[10]构造的问题集,其中的问题被广泛用于黑盒优化算法的研发评测。


RABBO挑战榜


RABBO的推出为领域内研发团队提供一个“研发工具”和“竞技平台”,目标是帮助领域研发人员快速学习、研发和评估黑盒优化算法。目前RABBO已经在阿里云天池平台开放,欢迎大家学习挑战:


RABBO挑战榜地址:https://tianchi.aliyun.com/rabbo


Baseline:https://code.aliyun.com/mindopt


参考文献


[1] D. Golovin, B. Solnik, S. Moitra, G. Kochanski, J. Karro and D. Sculley, “Google Vizier: A Service for Black-Box Optimization”, SIGKDD2017, pp. 1487-1495.

[2] 钢是怎样炼成的——转炉炼钢. 新华网, 2018-06-22.

[3] 成功发射一周年 “祝融号”火星车行驶路线图及最新火星影像来了. 环球时报, 2021-7-21.

[4] 魏祥泉, 黄建明, 顾冬晴, 陈凤. 火星车自主导航与路径规划技术研究[J]. 深空探测学报,2016, Vol.3,No.3.

[5] Z. Wang, C. Gehring, P. Kohli, and S. Jegelka, "Batched large-scale Bayesian optimization in high-dimensional spaces". In International Conference on Artificial Intelligence and Statistics, pages 745–754, 2018.(开源项目地址: https://github.com/zi-w/Ensemble-Bayesian-Optimization .)

[6] 双碳目标提出的背景、挑战、机遇及实现路径. (https://www.sohu.com/a/471453544_120815451)

[7] 孙辉, 吴姝雯, 王超. 尾流效应对风电场功率输出的影响分析[J]. 华北电力大学学报自然科学版, 2015, 42(2):55-60.

[8] https://climatechangedispatch.com/new-data-casts-doubt-on-boris-johnsons-offshore-wind-scheme/

[9] Shell. ai Hackathon for Sustainable and Affordable Energy, "Windfarm Layout Optimisation Challenge".(开源项目地址: https://github.com/aximthered/Wind-Farm-Layout-Optimization .)

[10] Surjanovic, S. & Bingham, D. (2013). Virtual Library of Simulation Experiments: Test Functions and Datasets. Retrieved August 3, 2021, from http://www.sfu.ca/~ssurjano.

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
353 10
【中文竞技场】大模型深度体验与测评
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2024:真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
23 13
|
2月前
|
人工智能 自然语言处理 Serverless
体验《触手可及,函数计算玩转 AI 大模型》测评报告
该解决方案利用阿里云函数计算服务高效部署和运行AI大模型,涵盖文本、图像、语音生成等应用。特点包括高效部署、极致弹性、按量付费及拥抱开源。用户可选择预设模板或直接部署模型镜像,快速启动AI项目。适用于内容创作、自动化客服、智能分析等场景,提供快速迭代和扩展能力。尽管已提供部署时长和费用预估,但对非技术用户还需更多指导。实际案例展示了其优势,但仍需补充技术细节和故障排除指南。
|
3月前
|
人工智能 弹性计算 运维
评测报告:《触手可及,函数计算玩转 AI 大模型》解决方案
本次评测聚焦于《触手可及,函数计算玩转 AI 大模型》这一解决方案。该方案旨在通过云上的函数计算服务来简化AI大模型的部署过程,使得用户可以更加便捷地利用这些强大的AI能力。本报告将从实践原理的理解、部署体验、优势展现以及实际应用等四个方面进行综合评估。
73 15
|
2月前
|
人工智能 Serverless 文件存储
《触手可及,函数计算玩转 AI 大模型》解决方案评测报告
该解决方案介绍如何利用阿里云函数计算快速部署AI大模型,通过无服务器架构、文件存储NAS和专有网络VPC实现模型持久化存储与私有网络访问。尽管整体描述清晰,但在技术细节上仍有待完善,建议增加架构图帮助理解。阿里云提供了详尽的部署文档,涵盖从选择模板到调用验证的全过程,适合新手用户。但在VPC和NAS配置上需更多示例指导,并优化报错信息提示。此方案展示了函数计算在降低成本、提升弹性和加速交付方面的优势,但可通过具体性能指标和案例进一步强化。适用于快速探索AI大模型效果、缺乏GPU资源的开发者及希望简化技术门槛的企业。未来版本应在细节描述和优势量化上继续优化。
|
3月前
|
人工智能 运维 大数据
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
114 2
|
5月前
|
机器学习/深度学习 自然语言处理 Ubuntu
FunAudioLLM 技术评测报告
【7月更文第31天】随着人工智能技术的迅速发展,语音识别和语音合成技术已经成为日常生活中不可或缺的一部分。FunAudioLLM 作为一款开源的语音大模型,致力于提供高质量的语音服务,支持多种应用场景。本次评测将重点评估 FunAudioLLM 在性能、功能及技术先进性方面的能力,并将其与国际知名的大规模语音模型进行比较。
161 2
|
7月前
|
编解码 人工智能 自然语言处理
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
【4月更文挑战第15天】贾佳亚团队推出Mini-Gemini模型,旨在缩小与GPT-4和Gemini的性能差距。该模型采用双视觉编码器处理高分辨率图像,提升视觉对话和推理准确性。搭配高质量数据集,增强图像理解和推理能力。Mini-Gemini在零样本基准测试中表现出色,尤其在高分辨率图像处理上。不过,模型在复杂视觉推理和计数能力上仍有改进空间。
45 1
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
|
7月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
107 0
下一篇
DataWorks