说来奇怪,中国人爱吃,但是对吃的却有千百种看法和意见,有的人喜欢吃辣,有的人不喜欢,有的人喜欢吃甜豆腐,有的人喜欢吃咸豆腐,千滋百味是中国菜的特色,但中国的味道到底是怎样的?或者说,主流的中国味道是怎样的?是美食节目里精致的膳食,还是晚上回家老妈的一碗热面?抑或是家门口小饭馆里冒着热气的回锅肉?
为了解决这个问题,我开始琢磨从数据分析上想点门路。在我咽了无数次口水后,我选取了几个美食网站,这几个美食网站的特点是,上面的美食都是用户主动上传的,因此,爬取这些美食的相关数据,就相当于趴在窗外看了一次别人家的晚饭,当我趴在窗户上看了足够多的别人家的晚饭的时候,关于中国味道的印象应该就可以成形了。
虽然这样做看上去有点猥琐,但是我的内心是高尚的,这一点必须澄清一下。
首先,我依旧是写爬虫,这个爬虫能够自动从这几个美食网站上随机获取美食的信息,包括食材,烹饪时间,具体步骤,美食名称,上传美食的用户位置这几个信息。
和之前的爬虫不一样,这个爬虫是自动去获取数据的,不需要跟任何参数,因此我把它放在一边,没有管它,这样过了一个小时之后。。。
第二天我又把它开了半天,最后大概爬取了约20万份全国各地的人们主动上传的美食。看到数据的我突然觉得,要是这都是做给我吃的就好了,20万道菜,就算一天吃10道菜,都可以吃50年了。数据从某方面来讲确实是好东西,但毕竟不能吃,少了那么些意思。
和之前分析歌词不同,几十万字的歌词也才1M上下,存个文本文档就足够了,但这次不一样,20万份下来最少100M,要是放在文本文档里那别说分析了,打开它都得让电脑卡死,所以这一次,我鸟枪换炮,把它存在了 mysql 数据库里面,说实话,G 以下的数据,也暂时还用不到 Hadoop 一类的东西,mysql 足矣。
通过对食材的聚类分析,我们可以看出,最受欢迎的调理是盐,其次是糖,酱油(PS:同类词已经合并,例如糖和白糖,都算做糖)
这从某种程度上说明了,咸味比甜味还是更主流一点。
那么,人们最喜欢吃的肉是什么呢?我们把食材又做一次聚类,发现了如下事实:
可以看得出,五花肉是不可撼动的存在,第二名排骨的份额也不错,达到了12.1%,其次是牛肉和猪肉。虽然猪肉略逊于牛肉,但五花肉和排骨其实也是猪肉,因此,猪肉无可辩驳的是中国人的餐桌之王。令我比较吃惊的是虾仁有8.57%的份额,我小时候基本上很少吃虾仁,这世界变化快啊。
肉类看完了,那么对于蔬菜的选择又是怎样的呢?
看了结果我有一点愤怒,为什么这么难吃的胡萝卜居然是第一?而且那么领先。又是为什么,香菜居然出现在了前十的名单里面。我最爱的土豆,居然只有 14.54% 的份额。这太让人震惊了。
另外我还发现了一个不得不说一下的事实,就是在描述用量的时候,出现最多的是「适量」,这个描述每次我看到都很头疼,适量到底是多少,为什么不能说的明白一点呢,我手一抖,倒下去半瓶醋,是不是也是适量?
看完了食材,我们看一下中国人最常做的菜是什么:
可乐鸡翅,这勾起了我遥远的回忆,我第一次听到这个名字的时候还在上小学,那时候我觉得这个菜肯定特别牛逼,特别复杂。后来却发现,这道菜出奇的简单,那些号称能在厨房露一手,但是平时从来不下厨房的人们,往往能露的也只有可乐鸡翅和蛋炒饭,最多再加一个土豆丝。
另一个比较好玩的数据是烹饪时间,统计发现,接近半数的菜,烹饪时间为30-45分钟,这充分说明了中国人做菜是充满耐心的,虽然社交网络上充斥着几分钟做一个什么什么菜的教程,但是大家还是愿意认认真真,花几个小时做一桌一家人的晚餐,这是中国传统文化中关于食物的美好的地方。
中国菜的技艺复杂,煎炒炸蒸焖煮烧,什么技法是出现最多的呢?
炒是做常见的做法,其次是烧,蒸和煎。
照例,我们可以杜撰一下一道典型中国菜的画像:适量的五花肉,适量的胡萝卜,土豆和洋葱,以及适量的酱油,盐和糖。首先把锅烧热,倒入适量的油,然后放入姜蒜,等香味出来后,放入五花肉,等到五花肉的油出来,肉微焦,香味四溢的时候,放入胡萝卜,土豆,洋葱,继续翻炒,然后放入酱油上色,盐,糖,继续翻炒入味,还可以放点水烧一下。然后撒点葱花,就可以出锅了!
炒出来可能是这个样子:
MD,居然饿了。
原文发布时间为:2017-03-02
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号