加利福尼亚Riverside大学研究人员宣布发现了一种昆虫分类的新方法,较之以往的方法更加准确、快速和实用,其成功关键在于:现成的激光指针结合和大数据应用。
研究人员表示,几十年来研究昆虫分类一直依赖麦克风捕捉昆虫飞过所发出的声音。遗憾的是麦克风所捕捉环境噪声嘈杂,除非昆虫在理想条件下飞过麦克风,要捕捉到有用数据是非常困难的。小的数据集结合非自然条件下数据,以最大限度提高数据收集,这有可能导致预测模型不准确(过度拟合)。
大数据出现,有助于缓解过度拟合。因为有更多数据,有多类型的数据,可供用于训练和测试模型,有助于检测真实的事物。想一想但我们试图判断某人关系模型时,只要研究Facebook有关数据,就可以建立已婚、单身或约会对象这样的关系,结合地缘、受教育程度和年龄因素等熟悉,可以很容易建立一个模型,很容进行预测。
我们用一个激光指针,配备一个光电晶体管和数字记录器,激光指示器提供一种新颖的方法,用于捕获昆虫飞过的声音,同时又不屈从于麦克风方法的缺点。他们捕捉昆虫翅膀飞过所引发激光束中断,并将其转成一个音频文件。利用这种方法,研究人员声称抓获了数千万的昆虫声音,在试验中为六大种类昆虫提供了一个准确的标签。
然而,该研究团队进一步分析了昆虫的昼夜节律(一天的时候,他们是活跃的),他们根据时间,而不仅仅是翅膀中断模型进行研究,让型更加精确。他们的模型也研究相同地理属性的,,因此可以进行正确的假设,例如,在撒哈拉以南非洲的蚊子,可能与在美国发现蚊子不是相同的物种,即使他们有着相似的昼夜节律和声音。
最终他们的模型可以准确区分79.44%的昆虫,期间包括10个不种类的昆虫(这包括来4~6项,关于雌雄性别的研究)。但研究两类昆虫时,模型准确率可以达到98.99%。其相同种类雌雄分辨的准确率可以到到99%。
如果结合分析哪些昆虫是有害的,哪些是无害的,并达到一定的准确率,那么这种新的激光结合大数据的分析方法,无疑也就具有了一定的实用性。
原文发布时间为:2014-05-01
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号