数据采集与预处理包含了数据采集和数据预处理两大任务。
数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。需要采集的数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。数据采集技术是大数据技术的重要组成部分,已经广泛应用于国民经济各个领域,随着大数据技术的发展和普及,大数据采集技术会迎来更加广阔的发展前景。
数据预处理是一个广泛的领域,其总体目标是为后续的数据分析工作提供可靠和高质量的数据,减少数据集规模,提高数据抽象程度和数据分析效率。在实际处理过程中,我们需要根据应用问题的具体情况选择合适的数据分析方法。数据预处理的任务主要包括数据清洗、数据集成、数据转换和数据脱敏等(如图1-3所示)。经过这些步骤,我们可以从大量的数据属性中提取出一部分对目标输出有重要影响的属性,降低源数据的维数,去除噪声,为数据分析算法提供干净、准确且有针对性的数据,减少数据分析算法的数据处理量,改进数据质量,提高分析效率。