Spark

首页 标签 Spark
# Spark #
关注
9128内容
StreamingPro 简化流式计算配置
前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入,多输出配置,现在流式计算也支持相同的配置方式了。另外未来等另外一个项目稳定,会释放出来配合StreamingPro使用,它可以让你很方便的读写HBase,比如可以为HBase 表 添加mapping,类似ES的做法,也可以不用mapping,系统会自动为你创建列(familly:column作为列名),或者将所有列合并成一个字段让你做处理。
【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库
本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了“高性能计算”和“大数据”的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储、数据处理和挖掘、机器学习以及深度学习等。
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
使用IDEA开发及测试Spark的环境搭建及简单测试
一、安装JDK(具体安装省略) 二、安装Scala(具体安装省略) 三、安装IDEA   1、打开后会看到如下,然后点击OK  2、点击Next:Default plugins,进入以下页面:   3、点击Scala的Install安装(确保联网),等待完成后,出现    ...
通过Spark SQL实时归档SLS数据
我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。
【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎
本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。
免费试用