1.2 在机器学习中应用Spark计算
基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用。Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因此,Apache Spark可以从任何Hadoop输入源(如HDFS)中读取数据。
Apache Spark计算模型非常适合机器学习中的分布式计算。特别是在快速交互式机器学习、并行计算和大型复杂模型情境下,Apache Spark无疑可以发挥其卓越效能。
Spark开发团队表示,Spark的哲学是使数据科学家和机器学习专业人员的生活更加轻松和高效。因此,Apache Spark拥有以下特点:
拥有详细说明文档,表达清晰的API
强大的专业领域库
易于与存储系统集成
通过缓存来避免数据移动
根据Databricks联合创始人Patrick Wendell的介绍, Spark特别适用于大规模数据处理。Apache Spark支持敏捷数据科学进行快速迭代计算,并且Spark很容易与IBM和其他综合解决方案集成。