爬下20万份菜谱,数据解读舌尖上的中国 | 饕餮文本大宴

简介:


0?wx_fmt=gif


说来奇怪,中国人爱吃,但是对吃的却有千百种看法和意见,有的人喜欢吃辣,有的人不喜欢,有的人喜欢吃甜豆腐,有的人喜欢吃咸豆腐,千滋百味是中国菜的特色,但中国的味道到底是怎样的?或者说,主流的中国味道是怎样的?是美食节目里精致的膳食,还是晚上回家老妈的一碗热面?抑或是家门口小饭馆里冒着热气的回锅肉?

为了解决这个问题,我开始琢磨从数据分析上想点门路。在我咽了无数次口水后,我选取了几个美食网站,这几个美食网站的特点是,上面的美食都是用户主动上传的,因此,爬取这些美食的相关数据,就相当于趴在窗外看了一次别人家的晚饭,当我趴在窗户上看了足够多的别人家的晚饭的时候,关于中国味道的印象应该就可以成形了。

虽然这样做看上去有点猥琐,但是我的内心是高尚的,这一点必须澄清一下。

首先,我依旧是写爬虫,这个爬虫能够自动从这几个美食网站上随机获取美食的信息,包括食材,烹饪时间,具体步骤,美食名称,上传美食的用户位置这几个信息。

0?wx_fmt=gif

和之前的爬虫不一样,这个爬虫是自动去获取数据的,不需要跟任何参数,因此我把它放在一边,没有管它,这样过了一个小时之后。。。

0?wx_fmt=gif

第二天我又把它开了半天,最后大概爬取了约20万份全国各地的人们主动上传的美食。看到数据的我突然觉得,要是这都是做给我吃的就好了,20万道菜,就算一天吃10道菜,都可以吃50年了。数据从某方面来讲确实是好东西,但毕竟不能吃,少了那么些意思。

和之前分析歌词不同,几十万字的歌词也才1M上下,存个文本文档就足够了,但这次不一样,20万份下来最少100M,要是放在文本文档里那别说分析了,打开它都得让电脑卡死,所以这一次,我鸟枪换炮,把它存在了 mysql 数据库里面,说实话,G 以下的数据,也暂时还用不到 Hadoop 一类的东西,mysql 足矣。

0?wx_fmt=gif


通过对食材的聚类分析,我们可以看出,最受欢迎的调理是盐,其次是糖,酱油(PS:同类词已经合并,例如糖和白糖,都算做糖)

0?wx_fmt=png

这从某种程度上说明了,咸味比甜味还是更主流一点。

那么,人们最喜欢吃的肉是什么呢?我们把食材又做一次聚类,发现了如下事实:

0?wx_fmt=jpeg

可以看得出,五花肉是不可撼动的存在,第二名排骨的份额也不错,达到了12.1%,其次是牛肉和猪肉。虽然猪肉略逊于牛肉,但五花肉和排骨其实也是猪肉,因此,猪肉无可辩驳的是中国人的餐桌之王。令我比较吃惊的是虾仁有8.57%的份额,我小时候基本上很少吃虾仁,这世界变化快啊。

肉类看完了,那么对于蔬菜的选择又是怎样的呢?

0?wx_fmt=jpeg

看了结果我有一点愤怒,为什么这么难吃的胡萝卜居然是第一?而且那么领先。又是为什么,香菜居然出现在了前十的名单里面。我最爱的土豆,居然只有 14.54% 的份额。这太让人震惊了。

另外我还发现了一个不得不说一下的事实,就是在描述用量的时候,出现最多的是「适量」,这个描述每次我看到都很头疼,适量到底是多少,为什么不能说的明白一点呢,我手一抖,倒下去半瓶醋,是不是也是适量?

0?wx_fmt=png


看完了食材,我们看一下中国人最常做的菜是什么:

0?wx_fmt=png

可乐鸡翅,这勾起了我遥远的回忆,我第一次听到这个名字的时候还在上小学,那时候我觉得这个菜肯定特别牛逼,特别复杂。后来却发现,这道菜出奇的简单,那些号称能在厨房露一手,但是平时从来不下厨房的人们,往往能露的也只有可乐鸡翅和蛋炒饭,最多再加一个土豆丝。

另一个比较好玩的数据是烹饪时间,统计发现,接近半数的菜,烹饪时间为30-45分钟,这充分说明了中国人做菜是充满耐心的,虽然社交网络上充斥着几分钟做一个什么什么菜的教程,但是大家还是愿意认认真真,花几个小时做一桌一家人的晚餐,这是中国传统文化中关于食物的美好的地方。

0?wx_fmt=png


中国菜的技艺复杂,煎炒炸蒸焖煮烧,什么技法是出现最多的呢?

0?wx_fmt=png

炒是做常见的做法,其次是烧,蒸和煎。

照例,我们可以杜撰一下一道典型中国菜的画像:适量的五花肉,适量的胡萝卜,土豆和洋葱,以及适量的酱油,盐和糖。首先把锅烧热,倒入适量的油,然后放入姜蒜,等香味出来后,放入五花肉,等到五花肉的油出来,肉微焦,香味四溢的时候,放入胡萝卜,土豆,洋葱,继续翻炒,然后放入酱油上色,盐,糖,继续翻炒入味,还可以放点水烧一下。然后撒点葱花,就可以出锅了!

炒出来可能是这个样子:

0?wx_fmt=jpeg

MD,居然饿了。

0?wx_fmt=jpeg

原文发布时间为:2017-03-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
机器学习/深度学习 存储 人工智能
『程序员对联』抽取你的专属新春对联
新春这个文章说实话,经历了蛮多的,一开始其实我是想用`three.js`做个老虎的,但是呢,失败了。废了好几个小时才搞出来两个`虎爪`,害,都怪我`three.js`的能力连基本上手都算不上,没咋玩明白,下次一定给大家做点好康的~
|
机器学习/深度学习 算法 自动驾驶
淘宝同款?高中生一年造出无人自行车获奖被质疑,丘奖回应:符合优胜奖标准
淘宝同款?高中生一年造出无人自行车获奖被质疑,丘奖回应:符合优胜奖标准
670 0
淘宝同款?高中生一年造出无人自行车获奖被质疑,丘奖回应:符合优胜奖标准
|
数据采集 机器学习/深度学习 自然语言处理
瑞士小哥开源文本英雄Texthero:一行代码完成数据预处理,网友:早用早下班!
自然语言处理任务的数据通常是杂乱无章的,而文本预处理要消耗大量的时间和精力。近日,GitHub上开源了一个NLP工具箱Texthero,不仅功能完善一个pipeline完成所有操作,速度还超快堪比SpaCy,一起来尝鲜吧!
180 0
瑞士小哥开源文本英雄Texthero:一行代码完成数据预处理,网友:早用早下班!
|
人工智能 BI
PAT甲级生词
M by N matrix M行N列矩阵 decimal system 十进制 1 decimal place 保留小数点后一位 radix 基数,进制,根 fewest intersections最少的结点 factorization因式分解
96 0
|
人工智能 搜索推荐 小程序
为儿童提供中文分级阅读,蜜蜂阅读完成数百万元天使轮融资
蜜蜂阅读主要为5 - 12 岁儿童提供中文分级阅读课程。
370 0
|
大数据 应用服务中间件 Linux
Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)
python、python爬虫、网络爬虫、爬虫框架、selenium、requests、urllib、数据分析、大数据、爬虫爬取静态网页、爬虫基础
2627 0
|
新零售 大数据 搜索推荐
8月17日科技联播:搜索热度赶超214情人节,七夕成中国情侣“撒狗粮”官方指定时间
行行好,给单身狗一条活路呗,七夕已经当仁不让地成为“过浪漫”、“撒狗粮”官方指定时间,红芯浏览器微信致歉不应强调国产自主,这样的道歉你接受吗?“靠脸吃饭”的时代真的来了,支付宝宣布刷脸支付已经具备商业化的能力!.....在.“七夕效应”的影响下,今天的科技圈比较平静,可能大家都去撒狗粮了!
2153 0
下一篇
无影云桌面