Spark

首页 标签 Spark
# Spark #
关注
9112内容
开源大数据周刊-第37期
[阿里云E-MapReduce动态] E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover 资讯 2017年数据领域的八大发展趋势 在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,
基于分布式的短文本命题实体识别之----人名识别(python实现)
目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。
Spark 1.5.0 远程调试
Spark 1.5.0 远程调试 作者:摇摆少年梦 微信号:zhouzhihubeyond 先决条件 已安装好Spark集群,本例子中使用的是spark-1.5.0. 安装方法参见:http://blog.csdn.net/lovehuangjiaju/article/details/48494737 已经安装好Intellij IDEA,本例中使用的是Intel
Spark学习之基于MLlib的机器学习
Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定。 2. MLlib完成文本分类任务步骤: (1)首先用字符串RDD来表示你的消息 (2)运行MLlib中的一个特征提取(feature extraction)算法来把文本数据转换为数值特征(适合
免费试用