1.5 小结
使用Hadoop和Spark的大数据分析大致分为两大类:数据分析和数据科学。数据分析侧重于过去和现在的统计,而数据科学侧重于未来的统计。数据科学项目本质上是迭代的,而数据分析项目则不是迭代的。
Apache Hadoop为你提供了分布式存储和资源管理,Spark为你提供了大数据分析的内存级性能。在大数据分析中,需要根据用例的类型及其可行性来使用各种工具和技术。
下一章将帮助你开始学习Hadoop和Spark。
使用Hadoop和Spark的大数据分析大致分为两大类:数据分析和数据科学。数据分析侧重于过去和现在的统计,而数据科学侧重于未来的统计。数据科学项目本质上是迭代的,而数据分析项目则不是迭代的。
Apache Hadoop为你提供了分布式存储和资源管理,Spark为你提供了大数据分析的内存级性能。在大数据分析中,需要根据用例的类型及其可行性来使用各种工具和技术。
下一章将帮助你开始学习Hadoop和Spark。