斯人如彩虹,遇上方知有。 皮,皮实
暂时未有相关通用技术能力~
阿里云技能认证
详细说明git的使用: 1.window本地安装git for windows:记住git.exe所在位置,接下来需要在idea中配置git相关设置中选中该exe。
大数据实时流处理零数据丢失 1.整体流程: a)kafka:作为流处理程序的生产者 b)sparkStreaming:作为消费者,设置合理batch c)DB:输出到redis/ES 2.存在问题: 雪崩效应: kill 出现,导致的数据丢失 sparkStreaming程序挂掉了,到知道的数据丢失 解决: 1.使用checkpoint。
kylin:通过预计算(已知要查询的维度),通过spark,mr遍历计算这些指标,然后将结果存储到hbase中,最后直接查询hbase表即可。
windows 本地测试spark streaming + kafka direct api 卡在如下信息出: “Kafka scala consumer marked as dead for group” 1.环境: kafka server为集群,连接时使用的是hostname:9092方法去连接,程序也不报错, 就是卡在上面的信息出,没有输出。
spark SQL not only SQL 1.SparkSession/DataFrame/Datasets API 2.
//参考《快学scala》 集合操作 foldLeft page:180 package alogrithnm import scala.
package algorithm import java.io.File object RecursiveApp { def main(args: Array[String]): Unit = { "...
package algorithm import scala.collection.mutable.ListBuffer object BubbleSort { def main(args: Array[Stri...
package algorithm object QuickSortApp { def QuickSort(list: List[Int]): List[Int] = { list match { ...
object selectSortApp { def main(args: Array[String]): Unit = { val list: ListBuffer[Int] = ListBuffer(...
package algorithm //返回查找到的数据的索引下标 object BinarySearch { def main(args: Array[String]): Unit = { val ar...
1 首先是官网: http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht 2.注意官方文档中的着重表示的地方例如(黑体加重,斜体等) 我们都知道spark streaming 是基于spark core API 那Structed Streaming基于的是什么? 没错就是Spark SQL。
坑一:pom文件主要内容:注意里面 需要 使用 “exclusion”排除相关的依赖 UTF-8 1.
python版本:2.7 jdk版本:1.8 Cassandra版本:3.11.2 官网: http://cassandra.
1》基础环境准备: jdk1.8.0_101 maven 3.3.9 scala2.11.8 安装好上述软件,配置好环境变量,并检查是否生效。
spark DataFrame 写出到MySQL时报如下错误: java.sql.BatchUpdateException: Column ‘name’ specified twice at sun.reflect 原因: 写出的DataFrame 表结构和MySQL中创建的表结构不一致, 2个 DataFrame join 后的结果中有两列都是“name”列。
1.spark读取本地文件系统: 则该文件也必须可以在工作节点上的相同路径上访问。所以需要将文件复制到所有work 节点或使用网络安装的共享文件系统。
Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore’s schema version 1.
***`只需要将我们写的model文件夹拷贝到对应的python环境下的lib/下的对应python版本的site-packages目录下:`*** 我们这里以anconda里的虚拟环境做示范: 需要在pyth...
1.首先需要在linux下安装Anaconda, 直接在anaconda软件目录下使用 bash Anaconda3-4.4.0-Linux-x86_64.sh 安装。
安装环境:Cent os 7 软件:Anaconda3-4.4.0-Linux-x86_64.sh 汉化文件:messages.mo 1.首先需要在linux下安装Anaconda, 直接在anaconda软件目录下使用 bash Anaconda3-4.4.0-Linux-x86_64.sh 安装。
查看报错原因: java.net.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries...
错误提示如下: Exception in thread “main” java.net.BindException: Cannot assign requested address: Service ‘sparkDrive...
一:挂载光驱 1.连接光驱,(镜像)如下图所示 注意哦:千万不要把6的镜像挂成7的,6的镜像挂6.*的都可以。
Spark支持的一些常见的格式: 文本文件:无任何的格式 json文件:半结构化 parquet:一种流行的列式存储格式 sequencefile:一种(k-v)的Hadoop文件格式.
第一步:设置云主机名 [root@localhost ~]# hostnamectl –static set-hostname master 第二步: 删除set……hostname和update……hostname vim /etc/cloud/cloud.
1.关闭网络故障的虚拟机 2.回到vmware主界面,点击 编辑(E)—–>里面选择虚拟网络编辑器(N)—> 右下角点击 更改设置(C)—->进去后,点击还原默认设置(R)。
比如:D:\vm_Machine目录下的CentOs.vmdk硬盘扩展到80GB,只要执行: 切换目录,执行命令即可,不需要在复杂的磁盘配额linux操作 “C:\Program Files (x86)\VMware\VMware Workstation\vmware-vdiskmanager.exe” -x 80GB “D:\vm_Machine\CentOs.vmdk” OK。
解决方法: 1.navicat里右击一个连接,选择连接属性,切换到高级选项卡,去掉“使用mysql字符集”前的对勾,在编码里选择utf-8,这种方法对于部分问题可能适合。
已踩的坑: 由于版本的不一致,安装marvel时会导致kibana界面报红, 还有启动kibana失败,提示端口在使用,(og [17:26:44.
在spark 根目录使用 sbin/start-all.sh 时,console提示 slave JAVA_HOME not set, 找了半天,最后的解决方法如下: 在sbin目录下的spark-config.sh 中添加对应的jdk 路径,然后使用scp -r 命令复制到各个worker节点,即可。
**1.flume 是分布式的日志收集系统,把收集来的数据传送到目的地去。 2。flume里面有个核心概念,叫做agent。
错误: bymain is not allowed to impersonate hadoop(或者 User root is not allowed to impersonate anonymou...
2016/11/1 17:30:06 资料: 1.ant 1.9.7 2.Hive src; 3.jdk 1.
1.安装KDE: .登录root用户, a.执行:yum groupinstall kde-desktop命令 修改配置文件 b.vim /etc/sysconfig/desktop 添加 DESKTOP="KDE" DISPLAYMANAGER="KDE" c..重启 reboot 后,在Session Type中选择KDE。
其实解决办法很简单, 1.关闭当前的虚拟机, 2.来到虚拟机的本地磁盘找到VMware 虚拟机配置 (.vmx)文件 3,右键打开方式选择Vmware Workstation 或者 Vmware Player就可以了 4.可以很开心的回到原来的场景。
官方文档永远是最好的说明:cliick me!!!
1.Ubuntu :点击打开链接 2.CentOS:点击打开链接
使用less ~/hadoop-2.5.2/logs/hadoop-zkpk-datanode-pxe01.log 查看日志得知: datanode的clusterID 和 namenode的clusterID 不匹配。
1.slaves节点报错,报的是启动nodemanager 所需内存不足 解决: a: 修改 yarn-site.
CentOS启动后显示 /usr/libexec/gconf-sanity-check-2 退出状态256 。X-windows也进不去了。
1. touch *{m..n}* 2.mkdir -p /directory {*} 3.\cp -p *{..}* /SrcDirc 4.rm -rf directory1,2... mkdir -p /d/dd/ddd创建一个多层嵌套目录 mkdir a b c 一次性创建多个木录 5.chmod g+x, o-r intall.log(给所在组加上可执行权限,给其他去掉读权限) 6.chmod 644 intall.log恢复到原来的权限值。