1.2 数据分析和贝叶斯推断
我们对这个问题的另外一个考虑是现在的数据科学。统计学通常包含两个部分,一个是学习;一个是统计推断。在学习的部分收集数据,收集数据后有一个方案是对数据进行建模。一种最简单的建模方式是均匀分布;另外一种经常用到的,特别是物理学、化学等自然科学用到的一种分布是高斯分布,还有经济学最常用的幂次率。对于这些不同的分布,我们逐步地知道它们越来越多的情况,可以说,我们有一个知其然的过程,正态分布我们知道有大数定律在里面,所以我们也知道一些,但是对于幂次率我们并不是非常清楚的知道。
建模以后还有一个统计推断的过程,我们这里做决策分析。回想一下机器学习很重要的几个阶段,也可以在这里体现出来:第一,我们有了数据,然后建模,把数据分成两部分——训练数据和测试数据,通过这两个阶段做决策分析。
整个的框架我们也许问过为什么,但是需要比较严格的清清楚楚地将它仔细地分析一下。这里我用一个贝叶斯优化的方案来探讨一个例子,目标是在金融和经济学里面见到的很多的,是将我们的期望收益最大化。