玩玩SPARK
没有SCALA的东东,玩不起哈。
./spark-shell
从文件生成一个DRIVER?
val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.
Scala第二章学习笔记
最基本的练习~:
使用伴生对象:
object holder{
class Foo{ private var x = 5}
object Foo{def im_in_yr_foo(f: Foo) = f.x}
}
import holder.Foo
val x = new Foo
Foo.im_in_yr_foo(x)
基本的会话: Scala的if块是个表达式。
Spark中分布式使用HanLP(1.7.0)分词示例
HanLP分词,如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典".分享某大神的示例经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码,把源码加入工程(依赖本地jar包,有些麻烦,有时候到服务器有找不到jar包的情况)按照文档操作,在Spark中分词,默认找的是本地目录,所以如果是在driver中分词是没有问题的。
[大数据之Spark]——Actions算子操作入门实例
Actions
reduce(func)
Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be computed correctly in parallel.
这个方法会传入两个参数,计算这两个参数返回一个结果。
Kafka官方文档翻译——实现
IMPLEMENTATION
1. API Design
Producer APIs
Producer API封装了底层两个Producer:
kafka.producer.SyncProducer
kafka.