本节书摘来自华章计算机《Scala机器学习》一书中的第2章,第2.4节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.4 不知之不知
“不知之不知”是出自美国国防部长Donald Rumsfeld,他在美国国防部新闻发布会上回应记者“关于无证据表明伊拉克政府向恐怖组织提供大规模杀伤性武器”的提问时所说的一句话。Nassim Taleb的书中也有提及(The Black Swan: The Impact of the Highly Improbable by Nassim Taleb, Random House, 2007)。
火鸡悖论
可以说不知之不知是对火鸡悖论更好的解释。假设有一群火鸡在后院玩耍,享受着保护和免费的食物。越过栅栏,还有一群这样的火鸡。这一切都在日复一日,月复一月地进行着,直到感恩节到来。在加拿大和美国,感恩节是一个全国性的节日,在那里习惯用烤箱烤火鸡。这时候火鸡们很有可能会被抓去吃掉,虽然从火鸡的角度来看,不太可能在加拿大十月的第2个星期一和美国十一月的第4个星期四会发生这种情况。除非使用年度信息,否则不管怎么使用年内数据建模也不能解决这个预测问题。
不知之不知是指不在模型中且不能在模型中被预测的事件。在现实中,唯一感兴趣的不知之不知是指以前几乎不可能出现,但现在却出现了,并非常明显地影响着模型的事件。由于大多数的实际分布都是长尾指数分布(不会像正态分布那样偏离一些),这对标准模型假设带来难以预料的结果。但人们仍提出了在模型中加入未知因素的策略(比如分形),但很少具有可操作性。从业者必须意识到风险,但风险的定义恰恰可能是模型无能为力的地方。当然,已知之不知和不知之不知的区别正是对风险的理解和探索的内容上。
在研究决策系统面临的基本问题之前,需要先关注数据管道和为决策提供信息的软件系统,以及在数据驱动系统中,设计数据管道时面临的实际问题。