在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。文中从三个角度思索了大数据时代的问题并提出了一些建议的做法以改进这些问题。
现今,人们看待数据理应更为深思熟虑,而不是不加刷选地搜集全部可获取的数据来实现“大数据”。我们如今需要让某些数据落实到位,并搜寻数量和质量的多样性。这一措施将产生很多长久的利益。
四种大数据神话:
任何数据都能够而且理应被捕捉和储存。
大量的数据总是有利于创建更精确的分折模型。
存储大量数据的成本基本上为零。
计算大量数据的成本基本上为零。
殊不知:
来自物联网和网络流量的数据明显超出了人们的捕捉能力。许多数据都需要在抓取时进行预处理便于存储和监管。人们需要按照其价值对数据做好归类与筛选。
重复使用一千次同样的数据开展训练并不会提升预测模型的精确性。
储存更多数据的成本不仅是亚马逊网络服务向您收取的以 TB 计费的美金。同时也包含系统在查寻和监管好几个数据源的超额复杂性,及其员工移动和运用该数据的“模拟重量”。这些成本一般高过储存和计算费用。
人工智能算法对计算资源的需求会迅速超过弹性云基础设施能够提供的算力。在沒有专业的管理模式的情形下,计算资源会呈线性增长,而计算需求则会出现超线性增长,乃至指数级增长。
假如轻信了这些神话,你所构筑的信息系统将会看上去会好似纸上谈兵,或从长久角度看上去非常好,但在即时性的架构中实现起来则是繁杂且低效的。
四种大数据问题:
重复的数据对模型无益。在为 AI 构建机器学习模型时,训练样本的多样性尤为重要。缘故是模型试图明确概念界限。比如,假如您的模型试图通过年纪和职业来界定“退休人员”的概念,那么像“32 岁的注册会计师”这样的重复样本对该模型并没什么价值,因为这些人大也没有退休。在 65 岁的概念边界中获得样本并掌握退休怎样随职业而转变则更具备价值。
低质量数据会对模型有害。在 AI 试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。
大数据增加了时间成本。针对不一样学习算法,在 TB 级的数据上构建模型将会会比在数 GB 的数据上构建模型多花费约千倍、乃至万倍的时间。数据科学本就是迅速实验,虽不完美却轻量的模型更具备未来趋势。数据科学一旦失去了速度,则失去了未来。
大数据环境下便于实现的模型。任何预测模型的最后目的都是构建一个可用于商业部署的高度精确的模型。有时使用来自数据库深处阴暗面的模糊数据将会会产生更高的精确性,但所使用的数据针对实际部署可能是有风险的。应用一个不太准确却能够快速部署和运行的模型往往更好。
四种更好的措施
学会在准确性和执行性之前权衡。数据科学家大都喜爱将目标定为更精确的模型。事实上,你理应依据准确性和部署速度,测算合理的 ROI 期待,随后再开始你的项目。
应用随机样本搭建每一模型。如果你已经获取了大数据,那么没理由不采用它。假如能使用好的随机抽样方法,那么你可以先使用小样本建立模型,随后在全部数据库上开展训练和调节以获取更精确的预测模型。
丢弃一些数据。倘若你对来源于物联网设施和其它来源的流数据觉得手足无措,请抛下一些数据,不必有太大的负担。如果你没法购买足够的磁盘来储存多余的数据,它会损毁你在计算机科学生产线末期的全部工作。
找寻更多数据源。人工智能近期的很多突破并非归因于更大的数据集,而是能够将机器学习算法成功的应用于这些数据,这在以前是没法实现的。比如,现今普遍存在的大中型文本,图像,视频和声频数据集在20年前并非存在。你理应持续探寻新的数据以找出更好的机会。