Spark 大规模机器学习官方文档 - 中文翻译
Spark官方文档 - 中文翻译
Spark版本:1.6.0
转载请注明出处:http://www.cnblogs.com/BYRans/
1 概述(Overview)
2 引入Spark(Linking with Spark)
3 初始化Spark(Initializing Spark)
3.
Spark 安装配置简单测试
简介
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRed
Spark修炼之道(高级篇)——Spark源码阅读:第十节 Standalone运行模式解析
Spark Standalone采用的是Master/Slave架构,主要涉及到的类包括:
类:org.apache.spark.deploy.master.Master
说明:负责整个集群的资源调度及Application的管理。
消息类型:
接收Worker发送的消息
1. RegisterWorker
2. ExecutorStateChanged
3. Work
开源大数据周刊-第37期
[阿里云E-MapReduce动态]
E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover
资讯
2017年数据领域的八大发展趋势
在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,
【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR
本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。
基于分布式的短文本命题实体识别之----人名识别(python实现)
目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。
据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。