据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个zettabytes的数据,随着更多的技术进步,这个数字预计将继续大幅增加。对于已经投资物联网的70%以上的组织而言,所有这些数据自然代表了独特的竞争优势,并且获得了用于开发创新AI应用程序的宝贵信息和见解的巨大机会。
事实证明,对于数据科学家和机器学习工程师而言,物联网数据与商业领袖一样令人兴奋。从医疗保健和农业到教育和运输,物联网蓬勃发展的领域与其应用程序一样多样化,从发现新信息到决策控制。物联网数据科学为创建令人兴奋的新数据产品打开了大门。但是,我们将在本文中研究物联网数据科学的一些特殊性。
数据注意事项
正如我们所看到的,物联网构成了新数据的最大来源之一。物联网数据实际上可能被视为大数据的缩影。如果我们查看通过一个设备生成的数据,我们通常会处理相当少量的数据(即使这也正在改变)。然而,随着无数分布式设备生成连续的数据流,物联网产生了大量的数据。它的多样性同样令人印象深刻:物联网设备收集各种类型的信息,从音频到传感器数据,并且总体上负责数据格式多样性的奇妙爆发。因为这些设备靠近用户并不断收集信息,这个生成的数据通常是高速的; 这使得物联网数据特别适合时间序列建模。
但是物联网数据也有一些独特的方面,使得它的开发极具挑战性。由于在采集和传输过程中发生错误,因此通常会产生噪声。这使得构建,清理和验证数据的过程成为机器学习算法开发中的关键步骤。从本质上讲,物联网数据也是高度可变的,这是因为各种数据收集组件之间的数据流存在巨大的不一致,并且由于存在时间模式。不仅如此,数据本身的价值高度依赖于底层机制,捕获数据的频率以及处理数据的方式。即使来自特定设备的数据被认为是值得信赖的,我们仍然需要考虑到即使在类似条件下不同设备可能表现不同的事实。因此,在收集训练数据时捕获所有可能的情况在实践中是不可行的。
半监督学习
然而,物联网数据最显着的特征之一在于它的粗糙:因为物联网设备通过各种复杂的传感器收集数据,它们生成的数据通常非常原始。这意味着在提取业务价值并构建强大的AI应用程序之前,必须进行大量数据处理。事实上,在构建智能物联网应用程序时,将有意义的信号与噪声分离并将这些非结构化数据流转换为有用的结构化数据是最重要但危险的步骤。
大量的物联网应用需要使用有监督的机器学习,这是一类机器学习算法,需要在训练模型之前标记数据。由于手动标记大型数据集是一项耗时,容易出错且可能成本高昂的任务,因此机器学习专业人员通常会先着手标记的开源数据集开始,或者从少量数据开始标记。然而,物联网数据的困难来自于它的特殊性:因为这些数据通常是独一无二的,所以不能保证现有的开源数据集是随时可用的,因此工程师必须标记自己的数据。
但是,由于物联网数据的可变性,标记一个小的随机样本可能是不够的。考虑到这一点,这些是在监督算法训练中利用标记和未标记数据的半监督学习策略的完美环境。特别是主动学习,其中允许算法向群众工作者查询在训练时智能选择的训练实例的子集的标签,这是非常适合的方法,允许机器学习科学家获得类似的算法精度。标签成本的一小部分。
人群传感
在机器学习方面,物联网发展的一个非常有趣的方面是人群感知的出现。群体感知存在两种不同的形式:自愿,当用户自愿提供信息时,以及机会主义,当没有明确的用户干预时自动收集数据。这是物联网数据不仅可以为物联网应用的开发或改进做出贡献的一种方式,而且还可以用作其他非物联网应用的输入。
物联网实际上允许以前所未有的方式收集非常独特的数据集。因为每个设备生成的数据通常是人为的,所以用户可以标记或验证它。
模型开发
如今,人工智能取得令人瞩目的进步背后的主要因素之一是出现了更好的技术,例如GPU,可以实现更快的数据处理。物联网的机器学习带来了一个有趣的难题:虽然最好的模型需要接受大量数据的培训,但大多数物联网设备仍然受限于存储空间和处理能力。出于这个原因,安全有效地将大量数据从设备传输到服务器或云,反之亦然,这是开发AI应用程序的关键。在云计算时代,一种自然的解决方案是将数据导出到开发模型的云中,并在模型准备好使用后将模型导出回设备。这特别有吸引力,特别是因为预计到2021年,所有生成的数据中有94%将在云中处理,这意味着它也可以利用其他数据源,无论是历史数据还是源自其他物联网设备。然而,将复杂模型存储回存储器受限的设备本身就是一个挑战,因为具有大量参数的复杂模型(例如深度学习模型)本身通常非常大。另一方面,在用于推理步骤的从设备向云上的模型发送数据的解决方案也可能是次优的,尤其是在延迟需要非常低的情况下。将复杂模型存储回存储器受限的设备本身就是一个挑战,因为具有大量参数的复杂模型(例如深度学习模型)本身通常非常大。另一方面,在用于推理步骤的从设备向云上的模型发送数据的解决方案也可能是次优的,尤其是在延迟需要非常低的情况下。将复杂模型存储回存储器受限的设备本身就是一个挑战,因为具有大量参数的复杂模型(例如深度学习模型)本身通常非常大。
另一个挑战来自于物联网设备可能无法连续连接到云,因此可能需要一些本地参考数据进行离线处理,以及独立运行的能力。这是边缘计算架构变得有趣的地方,因为它使数据能够在边缘设备级别进行初始处理。当需要增强安全性时,这种方法特别有吸引力; 这也是有利的,因为这种边缘设备能够过滤数据,降低噪声并提高现场数据质量。
不出所料,人工智能工程师一直在努力实现两全其美,最终开发出雾计算,这是一个分散的计算基础设施。在这种方法中,数据,计算能力,存储和应用程序以最合理的方式在设备和云之间分布,最终通过将它们更紧密地结合在一起来利用它们各自的优势。
转学习
我们已经看到物联网设备能够生成大数据,但在实践中,使用外部历史数据集开发物联网智能应用程序的情况并不少见。这意味着可以依赖于由多个IoT设备的集合(通常是跨多个用户的相同类型的设备)生成的数据,或者依赖于完全不同的数据源。应用程序越具体和独特,现有数据集可用的可能性就越小 - 例如,当设备捕获与开源图像数据集没有相似性的非常特定类型的图像时就是这种情况比如Imagenet 。话虽如此,物联网应用实际上是几种现有现有模型的巧妙融合,这是很常见的。这使得转移学习很好地适应了物联网环境中智能应用的发展。
转移学习范例包括在数据集上训练模型(通常是金标准模型)并使用它来对另一个数据集进行推断。或者,可以使用在生成此模型期间计算的参数作为在实际数据集上训练模型的起点,而不是将模型初始化为随机值。在这种情况下,我们将原始模型称为“预训练”模型,我们对特定于应用程序的数据进行微调。这种方法可以将训练阶段加速几个数量级。使用相同的范例,可以使用由最终用户直接生成的数据来训练一般模型,然后根据具体情况对其进行细化和优化。
安全和隐私问题
由于互联网连接设备技术通过提供物理和网络世界之间的连接来扩展当前的互联网,因此它生成的数据非常通用,但也是导致严重隐私问题的原因。事实上,参与物联网的大约50%的组织认为安全是物联网部署的最大障碍。考虑到大约三分之二的物联网设备在消费者领域,以及个人的一些共享数据是如何,很容易理解为什么。这些问题加上与频繁数据传输到云上的预期风险相结合,解释了用户为何要求保护其数据的保证。
然而,当这些物联网应用程序由“联合”数据(即多个用户生成的数据)提供支持时,事情变得更加阴险:用户数据不仅可以直接泄露,还可以通过旁道攻击间接暴露,当恶意代理反向工程机器学习算法的输出以推断私人信息。由于这些原因,数据保护法明显有必要与技术和应用程序本身一起发展。
物联网机器学习是以人为本的机器学习
由于物联网设备使互联网更贴近用户并触及人类生活的各个方面,因此它们通常允许收集高度上下文和个人数据。物联网数据叙述其用户生活的故事,并使其比以往更容易理解用户的需求,愿望,历史和偏好。这使得物联网数据成为构建根据用户个性量身定制的个性化应用程序的完美数据。
而且,由于物联网通过收集高度个性化的数据以及提供高度个性化的应用程序和服务而非常密切地触及我们的生活,因此物联网机器学习可以真正成为以人为本的机器学习。