Spark Streaming 妙用之实现工作流调度器
              之前有说过要设计一个工作流调度器。开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Streaming(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。
              
             
            
              
              IOT/智能设备日志解决方案(3):上下游对接
              当数据从遍布全球的设备端以及服务端采集上来后,最先会到达数据队列。队列承载所有数据的入口和出口,必须具备的两大能力是:
* 丰富的上下游对接能力:数据要能从各种方式接入上来,也能够非常容易的对接各个系统。
              
             
            
              
              Spark会把数据都载入到内存么?
              前言  
      很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。
  比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:
  RDD的定义,RDD是一个分布式的不可变数据集合
  Spark 是一个内
              
             
            
              
              浅谈Spark几种不同的任务提交相关脚本(以Spark 1.5.0为例)
              
        
本节主要内容
spark-shell
spark-submit
spark-sql
spark-class
总结
1. spark-shell
spark-shell脚本文件内容如下:
#!/usr/bin/env bash
#
# Licensed to the Apache Software Foundation (ASF) under one or mo
              
             
            
            
            
            
            
            
              
              Hadoop笔试题一
              
                    
                Hadoop笔试题一
一、选择题(2分每题,共20分)
1.下面哪个程序负责 HDFS 数据存储。 
A NameNode 
B Jobtracker 
C Datanode 
D tasktracker 
2.