张东晓院士:科学机器学习中的知识嵌入与知识发现

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: 张东晓院士:科学机器学习中的知识嵌入与知识发现

张东晓院士:科学机器学习中的知识嵌入与知识发现

机器之心 2023-01-28 12:33 发表于北京

机器之心报道

机器之心编辑部

1 月 11 日,在机器之心 AI 科技年会上,讲席教授、美国国家工程院院士、东方理工高等研究院常务副院长张东晓教授发表主题演讲《科学机器学习中的知识嵌入与知识发现》,在演讲中,他简要介绍了数据驱动模型的前沿技术,之后重点介绍了理论指导的数据驱动模型 —— 知识嵌入,以及数据驱动的模型挖掘 —— 知识发现。张院士指出,机器学习算法可以有效解决具有复杂非线性映射关系的问题;通过引入行业知识,可以有效提升机器学习模型的效果。将知识的嵌入和知识的发现结合起来,形成一个闭环,可以大大提高人工智能解决实际问题的能力。



以下为张东晓在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:



非常高兴有机会参加机器之心线上 AI 科技年会,并和大家分享我们最近的一些思考。今天我分享的内容包括三部分,第一部分是数据驱动模型;第二部分是理论指导的数据驱动模型,即知识嵌入;第三部分是数据驱动的模型挖掘,即知识发现。


一、数据驱动模型



首先,大家非常清楚模型驱动的方法,经过一个模型得到一个输出。我们学编程的时候,无论是复杂的算法还是简单的算法,都是在构建一个模型,这样有一个输入就会有一个输出。当然,这个算法可以是确定的,也可以是随机的。



另一方面是数据驱动的模式。这种模式我们还不清楚其输入和输出之间的映射关系,但是我们有数据。如果我们利用数据,经过学习,可以建立输入和输出之间的映射关系。当然了,这映射关系可能是个黑箱子,它不一定是一个显示的表达式。但是如果有了映射关系,我们就会有一个新的输入,从而得到一个新的输出。这就是现在这一代机器学习的核心数据驱动方法。


我们要解决问题到底是数据驱动还是模型驱动?这是一个值得思考的问题


首先来看一下数据驱动的一些例子,比如大家熟悉的大数据分析,数据科学机器学习等等。在数据和模型的天平中,这里是侧重于数据的,通过数据来寻找映射关系。



下面举几个例子,比如可再生能源的发电量的预测问题。如果我们有辐照量、温度、湿度、风速、昼夜的情况,以及历史的光伏发电量数据,就可以根据这些数据建立一种映射关系。基于此映射关系和天气预报数据,我们就能预测第二天光伏的发电量。风电也是一样。


映射关系可以通过各种方法来建立,比如支持向量机、卷积神经网络或者循环神经网络等等。它的核心就是寻找多元输入变量和目标变量之间的复杂映射关系,从而构建它预测的模型。



这是一个集中式光伏电站的发电量预测案例,拥有刚才提到的那些信息。我们可以经过处理以后,建立映射关系并对未来做预测。最终隔天预报的准确率可以达到 97% 。



当然了,风电也是一样。因为风力发电的历史发电量和历史的风速数据之间也有很好的相关性。所以,如果能够建立它们之间的映射关系,就可以对发电量做预测。



数据驱动模型在许多问题中得到了很好的效果,但是对很多应用来讲,数据是不容易获得的。比如对于地下资源勘探与开发重要的侧井曲线,打一口井进行测量可能要好几千万人民币;再比如,做一组吸附解析的实验要花很长的时间。很难获得足够的数据基于数据驱动方法对此类问题建模。


大家都知道,大模型需要大数据、大算力,比较有名的 GPT-3,有 96 层,有 1 万多个隐层维度,有接近 1750 亿个参数。要训练这样一个模型,需要的费用是非常高的,需要的数据量也非常大。



另外数据驱动的模型的指标往往有局限性,比如常使用的 MSE(均方误差),它是对误差的一个平均度量。它对误差的物理过程是没有区分的,比如一个系统无论是熵增还是熵减,对于 MSE 来讲都是一样的,虽然熵增与熵减对于一个物理系统来讲非常不一样。基于数据平均意义上的指标往往会忽略物理过程,比如我们一只脚踏在冰上,一只脚踏在火上,平均温度可能很舒服,但是实际情况并非如此。而 MSE 则只会关注这种数据上的平均结果。因此,在实际使用中,MSE 等数据驱动指标往往是有局限性的。



另外一方面,因为我们建立的很多模型是缺乏常识的,它没有人类世界的各种知识,这样很容易被攻击。比如在对抗样本的问题中,图片本来是一个熊猫,加上一点轻微的噪音以后,可能机器会认为它是一个长臂猿。再比如这种阿拉伯数字,对人类来讲,稍微加点噪音进去,我们仍然会认为是 8 或者 9;但机器可能不认为,因为很多时候它没有常识。



既然数据驱动存在问题,那么可否像早期的人工智能一样基于知识建模呢?然而对很多复杂的问题,很难完全基于知识来构建模型。这也是现在基于数据驱动的人工智能模型被广泛推广的一个原因。



对很多行业来讲,比如能源,对于模型的鲁棒性和可解释性要求很高,同时数据的采集费时且成本高,而且这个系统极其复杂,存在大量高维非线性的映射关系。这些特点导致纯粹的数据驱动或者知识驱动模型无法达到令人满意的效果。针对此问题,我们希望通过灵活利用能源行业多年积累的知识,构建知识与数据双驱动模型,提升模型精度和鲁棒性,降低数据需求。


这里我们提出一个智慧能源概念,它是基于领域的知识,利用观测的数据,使用人工智能的方法,所构建的一个技术体系。



领域知识和数据驱动的融合包含两个方面,一个是知识的嵌入,也就是如何构建具有物理常识的 AI 模型。通过在 AI 模型中嵌入领域知识,可以一方面借助机器学习的强拟合能力来描述变量之间高维复杂的映射关系,提高模型的准确率。同时,利用行业的先验知识保证预测结果符合物理机理,不违反常识。这就是知识嵌入在机器学习中的作用。


另外一方面是利用科学机器学习发现知识,也就是知识发现。知识发现是利用深度学习来探索物理原理,从观测数据或实验数据中直接挖掘控制方程,推进人类认知的前沿。知识嵌入和知识发现可以形成一个闭环,实现知识和数据的融合。


后面第二部分我会重点来讲知识嵌入,也就是如何构建具有物理常识的 AI 模型。第三部分来讲知识发现,如何利用人工智能来发现新的知识,比如物理原理、控制方程,第一性原理等等。有了这样的一个闭环以后,很多问题比如仿真模拟,反问题,可解释性等等,都能够有很好的解决。


二、理论指导的数据驱动模型(知识嵌入)



我们看看第二部分的知识嵌入。在这个过程中,既有数据,也有模型,它是两个方法之间的一个平衡。我们要兼顾二者,实现在数据驱动建模的全流程中嵌入知识。



知识嵌入的目的是通过在数据驱动模型中引入物理知识,构建物理上合理,数学上准确,计算上稳定高效的机器学习模型。所以,我们要考虑的核心问题主要有,复杂形式控制方程的嵌入,控制方程以外通用知识的嵌入,不规则物理场的知识嵌入,以及损失函数中正则项权重的自动调整策略等等。



在建模过程的多个环节都可以进行知识嵌入,比如在数据预处理环节,可以嵌入物理约束和人类的领域知识和先验经验。这与特征工程和数据归一化往往相关。还有在模型结构设计环节,也可以基于领域知识调整模型的网络结构或者拓扑结构。再有也可以在模型的优化调整环节嵌入领域知识,比如在学习过程中通过惩罚和激励来嵌入知识,其中最简单的方法是构建特殊设计的损失函数。我们举几个例子。



第一个例子是电力系统中电力负荷的预测。这项工作中的知识嵌入主要体现在数据的预处理方面和模型的反馈更新方面,其中数据预处理方面我们引入了一种电力负荷比值分解的方法来嵌入知识,在反馈更新环节利用一种自研的 EnLSTM 模型来优化,这种模型采用领域算法改进了优化过程。



在数据预处理方面,我们把电力负荷数据分解成一个大的趋势和局部扰动,大的趋势反映了预测区域的内在模式,比如能源结构和人口结构等,是根据历史数据和专家经验来确定的。局部扰动则是系统受到天气等外驱力影响下所产生的变化,通过数据驱动模型来预测。最终,将大的趋势和小的扰动结合起来。此外,我们还采用了一种负荷比值转化的方式,以实现数据的平稳化。比值的周期是根据物理过程确定的。这个方法我就不具体展开了,大家如果感兴趣可以看我们 2021 年发表的论文 TgDLF。



这个方法在北京的 12 个区进行了试验验证,基于 3 年多的真实小时级别数据,利用部分区的数据训练模型,对另外的区进行预测。比如右侧是对丰台区的电力负荷的预测结果。图中一共有 1362 天的预测结果,其中五个局部被放大展示,黑色线是真实测量值,红色线是预测值,灰色的是可信区间。大家看这个效果还是非常好的,准确率可以稳定达到 90% 以上。需要说明的是,我们在模型的训练中并没有利用丰台的数据,而仅仅使用了周边的区进行训练。



另外在模型的效果评估阶段也可以嵌入知识。比如在风力发电问题中,我们将概率分布所蕴含的信息作为约束,嵌入到数据驱动模型中,从而借助先验的概率密度函数拓展优化损失函数。



大家知道在风力发电中,风机的发电功率和风速有很大关系。由于实际工况复杂,所以该曲线并非一个一对一的映射,而是需要用描述风速和发电功率之间关系的概率分布函数来表征。如果我们有历史的数据,就可以从历史数据中得到先验的风功率曲线,然后通过改造损失函数,将其嵌入到模型的训练过程中。通过这种方法建立的人工智能模型不仅具有数据驱动的优势,还能保证输出结果符合先验的概率分布。



这是预测的结果,实际的结果还是非常好的。



在有噪音的情况下,嵌入了先验的概率密度分布函数的模型的效果比纯数据驱动模型的效果要好很多。这说明通过嵌入领域知识,可以有效提升模型的抗噪能力和鲁棒性。



然后我们介绍一下在模型效果评估方面嵌入领域知识的方法,这方面的例子比较充分,主要是基于改进损失函数的方法将控制方程作为约束嵌入到人工智能的模型中。



在模型的训练过程中,一方面可以利用数据驱动模型基于大量的数据进行学习,另外一方面我们还有控制方程、物理规律、工程理论,专家经验等先验信息。如果我们能够将这些先验信息嵌入数据驱动模型中,我们就不仅可以拟合数据,同时也保证模型输出结果遵循物理的准则和工程的理论,这样的模型就有更好的泛化能力。



相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
机器学习/深度学习 自然语言处理 算法
机器学习中的嵌入:释放表征的威力
机器学习中的嵌入:释放表征的威力
94 1
|
机器学习/深度学习 人工智能 算法
张东晓院士:科学机器学习中的知识嵌入与知识发现(3)
张东晓院士:科学机器学习中的知识嵌入与知识发现
263 0
张东晓院士:科学机器学习中的知识嵌入与知识发现(3)
|
机器学习/深度学习 人工智能
张东晓院士:科学机器学习中的知识嵌入与知识发现(2)
张东晓院士:科学机器学习中的知识嵌入与知识发现
259 0
张东晓院士:科学机器学习中的知识嵌入与知识发现(2)
|
机器学习/深度学习 人工智能 算法
鄂维南:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题(2)
鄂维南:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题
246 0
|
机器学习/深度学习 人工智能 算法
鄂维南:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题(1)
鄂维南:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题
308 0
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
114 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
6月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
303 0
|
6月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
895 0

热门文章

最新文章