榜单上新!快来康康黑盒优化技术评测基准RABBO!

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 在面对一些极其复杂的、目标函数不可解析的优化问题时,我们经常如坠入茫茫黑夜、不知道路在何方,黑盒优化技术正是冲破这茫茫黑夜,将我们带向最优解的一项技术。

引言


在面对一些极其复杂的、目标函数不可解析的优化问题时,我们经常如坠入茫茫黑夜、不知道路在何方,黑盒优化技术正是冲破这茫茫黑夜,将我们带向最优解的一项技术。


作为优化领域的一个分支,黑盒优化所针对的问题往往不具备明显的可利用的数学结构,例如可导、线性、凸性等,甚至目标函数不可解析,比如一个复杂系统的性能、一个算法的最终表现、一个决策的优劣等。


黑盒优化问题,泛指目标函数难以从数学上解析表达,缺少可直接利用的梯度信息,仅可利用目标函数输入和对应输出函数值进行最优解搜索的优化问题。简单来讲,黑盒优化架构可以用图1的架构图来表示,我们假设我们要求解的问题不好描述,就把这个问题做成一个仿真系统,这个系统可以根据输入的变量值(“候选解”)来给出对应的评价(“观测值”),然后黑盒优化算法,就是接上这个仿真系统,通过不断地去提供候选解和得到观测值,来搜索可能的最优表现的候选解。


图片.png

图1: 黑盒优化求解示意图


众多行业复杂场景中(例如供应链、交通、制造、能源、云计算等),黑盒优化都是实现系统智能决策的关键技术,近年来越来越受国内外大厂的重视[1],然而目前业界还没有专门针对黑盒优化技术开展的评测基准,在此背景下阿里巴巴达摩院决策智能团队联合阿里云天池联合推出了RABBO挑战榜。RABBO的推出为领域内研发团队提供一个“研发工具”和“竞技平台”,目标是打造国内外最具活力的的黑盒优化Benchmark榜单:

图片.png


RABBO介绍


RABBO全名是Real-Aplication Black-Box Optimization benchmark,是由达摩院决策智能团队推出了业界首个黑盒优化技术benchmark,RABBO为研究人员提供了针对黑盒优化问题的数学建模和优化求解的思路,通过提供黑盒优化接口规范代码、实际应用背景的测试问题和效果评测的方案,帮助领域研发人员快速学习和研发优化算法。


RABBO一期评测基准包括了4大类数据集任务,后期将会持续拓展新的问题场景:


图片.png

图2: RABBO四大类数据集任务


金属冶炼配比优化数据集


问题背景:传统制造业中存在大量原料配比优化的问题场景,我们需要通过优化生产材料的配比使产品达到质量要求的同时控制生产过程中能源消耗等成本。该类配比优化问题往往内在机理、生产流程复杂,通过进行经验性的配比实验搜索最优方案难度较大,代价极高。在具备问题模型仿真器的条件下,使用黑盒优化工具进行求解可以极大提高优化效率,降低优化成本。


在冶炼行业中,转炉炼钢以铁水、废钢、铁合金为主要原料,不借助外加能源,靠铁液本身的物理热和铁液组分间化学反应产生热量而在转炉中完成炼钢过程[2]。对于不同钢产品的类型(如低碳钢、高碳钢、低合金钢等),钢水中各元素含量的要求有所差异。通常要求铁水中含硫量较低,含硅量较高以及具有较高用于优化造渣所需的锰量。在转炉炼钢工艺中,有一个转炉配合金的环节:即往钢水中投入一定量的不同合金,通过氧化合金化来调节钢水中的锰、硅、碳、硫、磷等元素的含量,使之满足下一工序(或成品钢种)的元素含量要求。在配加某种目标元素时往往有多种合金可选择,不同合金选择会对其他元素含量带来不同影响,对应的采购价格也不相同。理论上,存在多种合金配比组合可达到最终各元素含量要求,而使总成本最低的配比组合仅有一个。


image.gif图片.png

图3. 炼钢合金配比问题示意图


问题建模:本题中的合金配比优化场景考虑锰硅、硅铁、金属锰、高碳锰铁、中碳锰铁5种合金,并试图回答这样一个问题:如何优化不同合金之间的配比,使得投入合金之后钢水中硅、锰元素的含量在特定目标范围之内,且投入的合金总成本最低?由于冶炼过程涉及元素间复杂化学过程,投入合金后的钢水成分还取决于环境温度和投入时机,并不能当作简单的直接混合来处理,在实际项目中,投入量和钢水成分之间的复杂关系通过仿真模型来进行预测。由于这些仿真模型并没有显式可用的数学结构,故该问题需要使用黑盒优化方法来进行建模求解。图4为基于仿真器的黑盒优化问题建模示意。


image.gif图片.png


图4. 炼钢合金配比优化问题建模示意图


image.gif

火星车路径规划数据集


问题背景:2021年5月22日10时40分,中国自主研发的第一辆火星车“祝融号”驶离了于一周前成功软着陆的天问一号火星探测器,开始了其在火星上的重要使命:在轨测试和巡视探测。截至2021年7月23日,“祝融号”火星车已在火星上工作了68个火星日,累计行驶585米,并先后传回“着陆点全景”、“地形地貌”、“中国印迹”和“着巡合影”等影像图[3]。路径规划的示意图如下:


image.gif图片.png

图5. 行驶路线图示意


由于地外星体环境的特殊性与复杂性,火星车及同类地外探测车(如月球车)在完成勘探任务时需要具备环境感知、自主导航、路径规划等多方面技术能力。其中,路径规划试图解决这样一个问题:即根据当前的位置姿态、环境感知结果及系统所指定的目标点进行局部路径点的分解和局部路径规划[4]。首先,路径规划需要考虑对地表障碍物的有效规避。欠优的路径规划方案可能导致火星车与障碍物相撞发生侧翻,进而造成探测任务失败,付出惨重代价。此外,地外探测车在能源供给、存储方面的限制也给按规划路径行驶所产生的能耗提出了额外的要求。


问题建模:本题借鉴了[5]中月球车路径规划问题的设计,将火星车的路径规划问题进行了一定程度的简化和抽象,旨在通过确定一序列二维平面上的坐标,为火星勘探车制定一个避障行驶路线。给定一组二维坐标序列,本题通过BSpline拟合得到对应的轨迹路线,并计算运行轨迹的成本。若出现轨迹中点坐标与障碍物坐标重叠的情况,则给予一定惩罚。同时,本题要求坐标序列的第一个点与最后一个点分别尽量接近问题设置中的起始点和终点。问题使用奖励函数对一组坐标序列进行评估,该函数具有非光滑、不连续、梯度难以求取的特征,属于典型的黑盒函数,需使用黑盒算法进行求解。


风场微观选址数据集


问题背景:2020年下半年,中国政府先后提出了“二氧化碳排放力争2030年前达到峰值”,“力争2060年前实现碳中和”的“双碳”目标,并将其上升为国家战略[6]。在此背景下,优化能源结构、布局发展新能源已被公认为是实现“双碳”目标的主要驱动力和必然选择。风能作为新能源中的一种,具有安全性高、储量巨大,分布极广的优点。近年来,风力发电技术也得到了迅速的发展与推广。风机微观选址问题旨在通过优化每台风力发电机组在风电场的位置,最大限度利用风能,降低风机尾流效应带来的影响,最大化风场发电量。


风机尾流效应指一台风机获取风能的同时在其下游形成风速下降的尾流区。若尾流区内存有下游风机,则下游风机的输入风速(图4中U)将远低于上游风机的输入风速(图4中V)。实际中一台风机往往会受到上游多台风机对应尾流效应的叠加影响(如图6中所示,风机2受风机1的尾流影响,风机3受风机1和2的尾流影响)。显然,尾流效应会造成风电场内风速分布不均,影响风电场内每台风机运行状况,进一步影响风电场运行工况及输出(位于下游尾流区的风机发电量会受到显著削减)。研究表明,尾流效应可导致高达20%的风机功率损失[7]。


image.gif

图6. 尾流效应示意图。D为上游风机直径,V代表上游风机的输入风速,U代表下游尾流区内的风速


图片.png

image.gif

图7. 海上风电场实际尾流效应示意图[8]


问题建模:一定时间段内风场的尾流效应由风场的风速、风向及风机组的几何排布所决定。单一风机的发电功率与尾流效应下风机输入风速之间的关系由非线性、非光滑函数进行刻画。基于上述因素,风场年发电量与风机位置坐标之间的函数关系无法使用数学解析表达式直接描述,为黑盒函数。因此,风机微观选址优化问题适合使用基于仿真器的黑盒优化算法求解。


本题采用基于Jensen's尾流模型的风场年发电量仿真器[9]。在输入一组风机的位置坐标(即一组变量值)后,仿真器可以基于一年的风速风向数据仿真输出风场年发电量值(即目标函数值)。该过程即被看作为一次采样。黑盒优化算法可通过不断地进行多次采样搜索得到使年发电量尽可能大的风机排布策略。基于风场仿真器的黑盒优化问题建模如下图8所示。


image.gif图片.png


图8. 风场微观选址问题建模示意图


image.gif

经典题目数据集

经典题目集是根据一些经典黑盒优化测试函数[10]构造的问题集,其中的问题被广泛用于黑盒优化算法的研发评测。


RABBO挑战榜


RABBO的推出为领域内研发团队提供一个“研发工具”和“竞技平台”,目标是帮助领域研发人员快速学习、研发和评估黑盒优化算法。目前RABBO已经在阿里云天池平台开放,欢迎大家学习挑战:


RABBO挑战榜地址:https://tianchi.aliyun.com/rabbo


Baseline:https://code.aliyun.com/mindopt


参考文献


[1] D. Golovin, B. Solnik, S. Moitra, G. Kochanski, J. Karro and D. Sculley, “Google Vizier: A Service for Black-Box Optimization”, SIGKDD2017, pp. 1487-1495.

[2] 钢是怎样炼成的——转炉炼钢. 新华网, 2018-06-22.

[3] 成功发射一周年 “祝融号”火星车行驶路线图及最新火星影像来了. 环球时报, 2021-7-21.

[4] 魏祥泉, 黄建明, 顾冬晴, 陈凤. 火星车自主导航与路径规划技术研究[J]. 深空探测学报,2016, Vol.3,No.3.

[5] Z. Wang, C. Gehring, P. Kohli, and S. Jegelka, "Batched large-scale Bayesian optimization in high-dimensional spaces". In International Conference on Artificial Intelligence and Statistics, pages 745–754, 2018.(开源项目地址: https://github.com/zi-w/Ensemble-Bayesian-Optimization .)

[6] 双碳目标提出的背景、挑战、机遇及实现路径. (https://www.sohu.com/a/471453544_120815451)

[7] 孙辉, 吴姝雯, 王超. 尾流效应对风电场功率输出的影响分析[J]. 华北电力大学学报自然科学版, 2015, 42(2):55-60.

[8] https://climatechangedispatch.com/new-data-casts-doubt-on-boris-johnsons-offshore-wind-scheme/

[9] Shell. ai Hackathon for Sustainable and Affordable Energy, "Windfarm Layout Optimisation Challenge".(开源项目地址: https://github.com/aximthered/Wind-Farm-Layout-Optimization .)

[10] Surjanovic, S. & Bingham, D. (2013). Virtual Library of Simulation Experiments: Test Functions and Datasets. Retrieved August 3, 2021, from http://www.sfu.ca/~ssurjano.

相关文章
|
2月前
|
人工智能 自然语言处理 测试技术
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。
90 1
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
|
23天前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
43 5
|
4天前
|
人工智能 JavaScript Python
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
|
8天前
|
存储 人工智能 文字识别
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
31 0
|
3月前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
102 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2024:真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
69 13
|
3月前
|
人工智能 测试技术 API
哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》提出了一种新型基础模型Hammer,通过函数掩码技术显著提升了大型语言模型在工具调用方面的性能,减少了对特定命名约定的依赖,展现了强大的泛化能力和超越现有模型的表现。该研究已开源,旨在促进智能设备的本地AI功能发展。
121 6
|
7月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
96 1
|
9月前
|
边缘计算 自然语言处理 安全
谷歌推出AGREE,增强大模型生成回答准确性
【6月更文挑战第19天】谷歌的AGREE技术针对大语言模型(LLMs)的“幻想”回答问题,通过自我接地和引用事实来源提升回答准确性。在多个数据集和模型上的测试显示,AGREE增强了回答和引用的准确性,但无法完全消除错误,且需大量计算资源,还可能涉及隐私和安全问题。[[1](https://arxiv.org/abs/2311.09533)]
92 1
|
10月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
132 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率