当纺织遇上阿里云,数学博士钻进车间要让企业更高效

简介:

从数学博士到阿里云工程师,夏分一直学以致用。加入阿里云接手的第一个ET工业大脑项目,因为数据传输问题丢失大量数据,导致机器误判拉响警报,这让他意识到自己不能只坐在电脑前做“码农”,也要下到车间做实地考察。

然而,之后夏分参与的项目是一家有32年历史的毛纺企业,从订单到配色、染毛、混毛,到纺线、织布和成衣,没有一套完整的数据采集系统。车间主任“迷信”人工智能和机器算法,在没有数据的情况下提出一系列“无解”要求,夏分利用数学思维将其一一解决。

虚惊一场的教训

从本科到博士,夏分在浙江大学研究了10年数学,毕业后一度从事人工智能辅助医疗方面的研究,却因为缺乏结构化数据陷入瓶颈。刚好,有人推荐他去阿里云,抱着“医疗是民生,工业是战略”的想法,夏分于2017年7月加入阿里云,成为一名算法工程师,也是第一代车间程序员。

入职后的第4个月,夏分接手了第一个项目,用ET工业大脑帮一家风电企业提前预测风电机组故障。

当纺织遇上阿里云,数学博士钻进车间要让企业更高效

夏分

由于无法实时掌握工作状态,传统风电机组维护,通常都是在故障发生后亡羊补牢,维修费用高,维修周期长,还会影响生产的连续性。

一个5万千瓦的风电场,平均每年维护费用高达300万元,还会以平均3%的速率逐年递增。而这家风电企业拥有10个风电场、500多台风电机组,维护成本带来的压力可想而知。

就像一个人生病,病情发展有迹可循,如果能提早发现,提前干预,就能阻止病情恶化,节省医疗成本。而对风电机组来说,一个核心健康指标是温度,长期高速运转下,部件老化导致摩擦碰撞,就会产生不必要的热能,但有些时候,没有机械故障也会引起部件发热,怎么样才能在不放过故障的同时,做到不误报、减少风电场工程师工作量?

工程师爬上几十层楼高的风电机,为两台验证机组装上数十组温度传感器,在运转中源源不断地采集温度数据,夏分则在杭州的办公室里,实时监控并分析着数千里之外的数据。积累到上亿条温度数据后,夏分建立机器学习模型,希望能提前识别风电机组运行异常并预警。

一次,机器检测出的温度数值与模型预估的相差20多度,这让夏分有点不知所措,“温度过高将导致风电机组无法正常运作,这可不是个小问题。”远在新疆吐鲁番的工程师接到警报后,赶紧查看了“异常”风电机组测点的温度数据,却发现完全正常。那么,是网络传输不稳定?还是传感器故障或老化影响了数据的采集?夏分在脑海中推理着各种原因,不相信自己的算法会出错。

“怎么会只有1%的数据?”紧张排查几个小时,原因找到了,风电场出现严重的数据缺失,大量数据未同步上传,导致机器学习的并不是完整数据。

最终,ET工业大脑做到能提前2周识别风电机组潜在故障,大修变小修,单次重大事件维护成本降低20-40万元。夏分却意识到,要将前沿科技真正带入工厂,光靠在电脑前码出一套算法还不够,必须去实地考察真实情况。

毛纺企业的配色难

今年四月,夏分接到又一个项目需求——一家国内毛纺行业的龙头企业,希望借助ET工业大脑,来提高配色的效率。毛纺行业,染色质量是衡量呢绒产品质量的金标准,而染色的关键,在于染料配方的准确程度。

夏分一头扎进毛纺企业的混合羊毛车间。车间里闷热潮湿,羊毛和化学溶剂的味道混在一起,钻进鼻子令人犯呕,轰隆作响的混毛机器旁,放着一个个一米多高的白色塑料桶,里面塞着不同颜色的羊毛。

当纺织遇上阿里云,数学博士钻进车间要让企业更高效

纺织车间

这一次,客户来样是蓝色。试验台前坐着二三十名工艺员,他们从一缸染好颜色的羊毛中,撕取一小撮大概15厘米长、5厘米直径的羊毛小样,人工梳毛后,拿着小样去称量,然后通过美国进口的datacolor测色仪,检测染色结果是否与客户要求一致。

验色结果不尽人意,颜色严重偏紫,红色太多。第二次配色,又偏绿了,黄色太多。工艺员把第一缸和第二缸的羊毛倒入混毛机,充分混匀后,再撕取一撮上机器测色,若不正确,就再重复一次。

当纺织遇上阿里云,数学博士钻进车间要让企业更高效

成检车间

“还是很原始的方式。”夏分从老师傅口中得知,从拿到订单指令到完成配色,至少要一周时间,老师傅一般5次左右便可配色成功,而新人7次8次都未必能成功。染料配方频繁调整,生产周期随之拉长,库存积压还是小事,倘若色光不符合客户来样,能不能顺利交货都是问题。

夏分琢磨着,建立模型导入数据,让机器学习染料配方,再将老师傅总结出的经验,通过机器算法来学习,几次推荐出符合来样的染料配方易如反掌。夏分正想得出神,车间主任突然来了一句“我们没有数据”……

想要数据得先洗脑

数据,其实是有一些的。比如每次配色成功,工艺员都会详细记录染料配方和混色数据,只是没有数字量化最终配出的颜色,而是保存了实物样本。每次拿到客户来样,工艺员就拿出以前做过的实物样本对比,找出色光最接近的方案,不断调整测试。

可是经验丰富的工艺员都知道,哪怕配的是之前配过的同一种颜色,按照历史记录配出的颜色,也会因为车间环境温度湿度的变化而发生细微偏差,而染料员稍偷点懒,30分钟的染色时间缩短到26分钟,就会直接影响染料在羊毛上的附着力。而这些有可能导致配色失败的因素,都没有以数据的方式留存下来。

企业的IT员工,其实早就认识到数据生成和数据采集的短板,一直在向车间主任推荐数据的功效,可是对方的回答永远是“大家都那么忙,哪有空做这个?”

对于ET工业大脑,车间主任倒是寄予厚望,见到夏分就说,“人工智能嘛,你们阿里云就是很厉害,没有数据你们也应该能做出来。”

“没有数据不行?那你们就估计一个数据出来。”车间主任甚至提出,希望通过算法,自动填补缺失的空白数据。

“这根本就是悖论嘛。”夏分抿了抿嘴,车间主任“神化”了人工智能和机器算法,给他提出一个大难题。

当纺织遇上阿里云,数学博士钻进车间要让企业更高效

两次见面沟通,一次电话会议,夏分只要逮到机会,就给车间主任灌输“要采集数据”的观念。到了5月底,IT人员发来了专门采集的数据,夏分如释重负。

目标节省两成人力

从车间回到办公室,夏分坐在电脑前,在网上搜索起契合业务背景的论文。

《基于共轭梯度法的纱线染色配方预测优化算法》,外行人读个题目都费劲的论文,夏分抱起来就啃。从中午吃完饭到零点睡觉前,从一开始的三四篇论文再到引申出的10余篇参考文献,夏分一边仔细研读,一边做笔记标注,仿佛回到读研读博的时光。

既然目前车间工作流的操作无碍,就把不稳定的因素暂放一旁,只要减少配色的尝试次数,在一定程度上就是节省工作量,夏分理清了思路,“我们要做的就是找到一个平衡点,提高算法的准确率,从而减少他们的工作流和人力。”

“收集历史配方数据,列出用了哪个工厂的染料,哪几种颜色,比例分别是多少,染色出来的颜色是什么……”夏分给车间主任开出了数据采集要求,在配色染色的每一个步骤都加上了使用数值化记录的环节。

毛纺企业目前有几十类配方,而机器学习一类配方大概需要上百条数据,只要拥有数据,夏分很快就能完成数据清洗,特征构造,特征筛选,模型筛选,参数调优等建模步骤。

结合前期试验和算法模型,夏分设想,首次推荐配方的成功率只有60%,二次推荐的成功率是84%,三次推荐的成功率则在90%以上,可以节省20%的人力,现在就只差实践验证。

“分析、比较、判断,其实都是数学中的逻辑思维。”夏分笑着说,自己跟数学早已难舍难分。


原文发布时间为:2018-08-30

本文作者:王安忆

本文来自云栖社区合作伙伴“天下网商”,了解相关信息可以关注“天下网商”。

相关文章
|
存储 NoSQL Serverless
看 AgentRun 如何玩转记忆存储,最佳实践来了!
AgentRun 基于 Tablestore 提供三类智能体记忆能力:会话历史(维持单轮多轮上下文)、长期记忆(跨会话存储用户偏好等结构化信息)、会话状态(持久化任务进度等元数据),支持控制台配置与 SDK/SDK 集成。
336 0
|
8月前
|
数据采集 机器学习/深度学习 自然语言处理
98_数据增强:提升LLM微调效果的关键技术
在大语言模型(LLM)的微调过程中,数据质量与数量往往是决定最终性能的关键因素。然而,获取高质量、多样化且标注准确的训练数据却常常面临诸多挑战:数据标注成本高昂、领域特定数据稀缺、数据分布不均等问题都会直接影响微调效果。在这种背景下,数据增强技术作为一种能够有效扩充训练数据并提升其多样性的方法,正发挥着越来越重要的作用。
778 1
|
8月前
|
数据采集 人工智能 自然语言处理
121_训练评估:困惑度分析 - 分析指标与下游任务关系
在大规模语言模型(LLM)的训练过程中,评估模型性能是一个至关重要但常被简化处理的环节。2025年的研究表明,仅依赖单一指标(如困惑度)来判断模型质量已经无法满足复杂应用场景的需求。困惑度作为语言模型训练中最核心的评估指标,其与下游任务表现之间的关系远比直觉更复杂。本文将深入剖析困惑度的数学原理、计算方法、优化策略,以及其与各类下游任务表现的相关性分析,为大规模语言模型的训练优化提供全面的技术指导。
866 1
|
缓存 测试技术 API
解锁开源模型高性能服务:SGLang Runtime 应用场景与实践
SGLang 是一个用于大型语言模型和视觉语言模型的推理框架。
|
数据可视化 前端开发 数据挖掘
【优秀python大屏】基于python flask的广州历史天气数据应用与可视化大屏
本文介绍了一个基于Python Flask框架的广州历史天气数据应用与可视化大屏系统,该系统通过数据采集、处理、分析和可视化技术,提供了丰富的气象数据展示和决策支持,帮助用户快速了解和应对气象变化。
801 110
【优秀python大屏】基于python flask的广州历史天气数据应用与可视化大屏
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
4514 60
|
存储 JSON 数据格式
解密 parquet 文件,以及如何用 Python 去处理它(一)
解密 parquet 文件,以及如何用 Python 去处理它
3443 1
WK
|
机器学习/深度学习 算法 决策智能
什么是粒子群算法
粒子群算法(PSO)是一种元启发式优化算法,通过模拟鸟群或鱼群行为进行优化搜索。1995年由Kennedy和Eberhart提出,基于鸟类群体行为建模。算法通过粒子在搜索空间中移动,不断更新位置和速度,逐步逼近最优解。其流程包括初始化、评估、更新最佳位置及速度,直至满足终止条件。该算法具有简单性、全局搜索能力和良好收敛性,并广泛应用于函数优化、神经网络训练等多个领域。为克服局部最优和收敛速度慢的问题,已有多种改进策略。
WK
1360 1
|
索引 Python
如何高效地对比处理 DataFrame 的两列数据
如何高效地对比处理 DataFrame 的两列数据
372 0