张东晓院士:科学机器学习中的知识嵌入与知识发现(3)

简介: 张东晓院士:科学机器学习中的知识嵌入与知识发现

我们可以看一下早期的做法。比如,我有个口袋,可以在里面掏各种东西,把掏出来的项做组合。当然了,真正需要的项,这肯定在口袋中。这就是封闭候选集的一种做法。


后来我们做的时候发现,实际上我们不一定知道哪项是真正有用的。这种情况下,我们给一些基本的项,其他的项,我们通过遗传算法的交叉和变异得到新的项,这叫做半开放候选集。虽然我们没有一个完备的候选集,但是我们也能解决这个问题。当然,现在更好的办法是,如果只给我一个自变量,给我一个因变量,我们再定义一些运算符、运算法则。这种情况下,如果我们能够定义像导数,加减,乘除等等这些运算符,那么方程的每一项都是一个树的结构,这样你通过一次次变异去改变树的结构,就可以把方程找出来。即使是比较复杂的方程也能找出来,而且只需要自变量和因变量。



我们举个例子,KdV 方程,一个很复杂的方程。对于封闭候选集,需要先猜测这里面大概会包含哪些项?在这里,我们假设这里面有 17 项,而且方程真正需要的项确实也在这里面,这种情况下是能把问题解出来的。如果像刚才讲的半开放候选集,虽然只给了四个项,真正的项以及其他很多项不在这个候选集里面,这种情况下怎么办?可以通过交叉和变异的算法,产生新的项,这样也能把这个问题解决。



另外一个就是用符号数学的办法,每一项都可以变成一个树的结构。这个树是由节点构成的,父节点是运算符,子节点是系数、变量或者函数。对于树的结构,它的深度和广度,都可以调整,因为它表明树或者说方程的项到底有多复杂。这样,每一个方程实际上都是一片森林,你能够自由地去调整它的稀疏性。即使是很复杂的方程,在没有任何先验信息的情况下,也有可能找到。这种情况下,我们做了很多尝试,发现这个方法连很复杂的嵌套式方程和分数式方程都能找到。一般情况下,可能很难想象 1/x 是你方程的项和系数,实际上这里面还是很有意思的。那么它是怎么找到的呢?



比如刚才讲的例子中,初始有一个自变量、因变量,它第一代迭代后可能找出了这些简单的项,当然这些项是不正确的。然后再交叉、变异、进化,再去评估它合不合理等等,最后找出来的项是很好的。比如系数本来是 0. 25,它找出的系数是 0.2498,系数只是差一点点。另一个系数本来应该是 1 的,它算出来是 0. 9979,这基本上就把这个方程准确无误地找出来了。当然了,这里面还有很多例子,我就不详细展开了。



知识发现也可以用来解决实际的问题。比如这种粘性重力流问题,它的短期行为是没有控制方程的。这种情况下,我们通过精细的微观数字模拟能得到它的一些数据。是不是可以利用这些数据,来学习得到它的宏观控制方程?实际上这是可行的。



当然,我们做的过程中,会考虑一些准则。一方面我们需要已知的那部分数据,数据拟合的精度越高越好。另一方面,我们希望模型越简单越好。同时,拟合数据的吻合程度也要越高越好。



比如在这个情况下,短期的行为控制方程是从未被发现过的,文献里没有报道过,也没有人推导出来过。我们用知识发现的方法得到可能的两个方程,我们发现形式较为复杂的方程(方程②)和数据的误差比稍微要小一点,但是它比上面这个方程(方程①)更复杂,上面这个方程(方程①)更简洁。所以我们刚把刚才的两个因素考虑进去,通过比较物理信息准则值的大小,我们就采用这样一个形式(方程①),发现这个形式它实际上是一个非常好一个折中,它既有很好的精度,又有很好的简洁性,简单美。



小结一下,利用稀疏回归、遗传算法、符号数学,可以从时空的数据中直接挖掘控制方程。深度学习提供了一种计算导数的可行方式,对噪声、稀疏数据具有很好的鲁棒性。对于一个挖掘出的偏微分方程模型,它应该在简约性和精确性之间取得平衡,从而获得较高的可解释性,这样的方程它实际上就找到以后就很好用,也可以给我们获得更好的可解释性。挖掘控制方程的本质就是知识发现。


结语



总结一下,刚才讲知识的嵌入和知识的发现是要形成一个闭环的,是知识科学机器学习的一个核心。



最后,机器学习算法可以有效地解决具有复杂、非线性映射关系的问题。当然了,数据是关键,比如信息化、物联网等等,这非常重要。但是光有数据,只是 “数据大”,并不是 “大数据”。如何做到 “大数据”?刚才讲要建立这种模型,利用行业的知识,利用这种 cutting edge 的算法来好好地利用这些数据,从 “数据大” 到 “大数据”。


另外一方面,要引入行业的知识,这样可以有效地提升机器学习模型的效果。当然在各个环节都可以引入行业的知识,我就不重复了。


另外,大家可能听得比较多,是 AI 加 x, x 就是行业,还是行业加 AI,就是 x 加 AI。在我的心目中,我觉得解决各个行业的问题应该是行业 x 加 AI。因为 AI 是一种是算法,是通用的模型。像我们计算编程的语言,实际上光有这些编程的语言,是不能解决行业问题的,还应该是行业加 AI,这应该是数据驱动和模型驱动的一个有机的结合。


在这里面我再重复一遍,就是知识的嵌入和知识的发现,要形成一个闭环,从而大大提高我们人工智能解决实际问题的能力。


好,谢谢大家。

相关文章
|
12月前
|
机器学习/深度学习 数据采集 人工智能
张东晓院士:科学机器学习中的知识嵌入与知识发现
张东晓院士:科学机器学习中的知识嵌入与知识发现
226 0
张东晓院士:科学机器学习中的知识嵌入与知识发现
|
6月前
|
机器学习/深度学习 自然语言处理 算法
机器学习中的嵌入:释放表征的威力
机器学习中的嵌入:释放表征的威力
57 1
|
12月前
|
机器学习/深度学习 人工智能
张东晓院士:科学机器学习中的知识嵌入与知识发现(2)
张东晓院士:科学机器学习中的知识嵌入与知识发现
181 0
张东晓院士:科学机器学习中的知识嵌入与知识发现(2)
|
机器学习/深度学习 存储
图数据科学和机器学习图嵌入概览
图数据科学和机器学习图嵌入概览
84 0
图数据科学和机器学习图嵌入概览
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
29天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
29 1
|
2月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
133 0

热门文章

最新文章