Tachyon简介及目前可用性分析

简介:

简介

翻译tachyon wiki上的介绍

Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件”。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。


使用

鉴于Tachyon也是AMP实验室开发的项目,属Spark整个生态环境里的一部分,原本打算尝试让Spark/Shark在Tachyon上跑,看看速度/性能有没有一些提升。


Tachyon目前发布的release版本是0.2的,支持CDH3。支持CDH4的tachyon-0.3版本还未发布,不过可以在0.3-branch上下载到,需要自己编译打包,依赖的jdk是1.7的。想要部署cluster,让Spark和Shark在上面跑的话,可以参考下面几份wiki,

https://github.com/amplab/tachyon/wiki/Running-Tachyon-on-a-Cluster
https://github.com/amplab/tachyon/wiki/Running-Spark-on-Tachyon
https://github.com/amplab/tachyon/wiki/Running-Shark-on-Tachyon
部署和使用还是很方便的,可以用

./start.sh SudoMount
启动master和所有workers,然后在webui上看到worker情况以及FileSystem内已经存储的文件情况。

./run-tests.sh
测试文件里,写死了$MASTER_ADDRESS的端口,如果在/conf/tachyon-env.sh里修改了端口的话,需要保持一致。


可用性

最近新发布的shark-0.8,发布的pre-built版本是默认不支持tachyon的,因为shark-0.8的标配是spark-0.8,scala-2.9.3和cdh4,而tachyon的支持cdh4的0.3版本如上所述还未正式发布,所以我在shark-0.8上基于tachyon create table的时候,提示版本不支持。具体在SharkBuild.scala里可以看到编译的时候没有enable:

// Shark version
  val SHARK_VERSION = "0.8.0"

  val SPARK_VERSION = "0.8.0-incubating"

  val SCALA_VERSION = "2.9.3"

  // Hadoop version to build against. For example, "0.20.2", "0.20.205.0", or
  // "1.0.1" for Apache releases, or "0.20.2-cdh3u3" for Cloudera Hadoop.
  val DEFAULT_HADOOP_VERSION = "1.0.4"

  lazy val hadoopVersion = env("SHARK_HADOOP_VERSION") orElse
                           env("SPARK_HADOOP_VERSION") getOrElse
                           DEFAULT_HADOOP_VERSION

  // Whether to build Shark with Yarn support
  val YARN_ENABLED = env("SHARK_YARN").getOrElse("false").toBoolean

  // Whether to build Shark with Tachyon jar.
  val TACHYON_ENABLED = false
另一方面,我用shark-0.7跑的时候,会出一些奇怪的问题,在google的 tachyon user上看了相关帖子,很多问题和bug都说会在0.3或者future release中解决,觉得 tachyon还不够成熟和稳定,暂时还不敢继续尝试使用。至少等到0.3正式发布,再观望一下情况。

目录
相关文章
|
1月前
|
存储 分布式计算 Hadoop
Hadoop的性能优化和数据容错性
【6月更文挑战第7天】
18 1
|
1月前
|
消息中间件 缓存 监控
Kafka性能优化策略综述:提升吞吐量与可靠性
Kafka性能优化策略综述:提升吞吐量与可靠性
97 0
|
12月前
|
存储 数据安全/隐私保护
简述 HDFS 的系统架构,以及如何保证数据安全
简述 HDFS 的系统架构,以及如何保证数据安全
96 0
|
存储 监控 负载均衡
大数据数据存储的搜索引擎Elasticsearch的调优的磁盘读写优化
Elasticsearch是一个可扩展的搜索引擎,可以在同一个集群中部署多个Elasticsearch节点,以提高性能和可用性。
74 0
|
存储 缓存 固态存储
白话Elasticsearch63-生产集群部署之硬件配置、jvm以及集群规划建议
白话Elasticsearch63-生产集群部署之硬件配置、jvm以及集群规划建议
144 0
|
机器学习/深度学习 存储 分布式计算
HDFS 高可用和高扩展机制分析|青训营笔记
文章主要讲解:1.HDFS 元数据服务的高可用;2.HDFS 数据存储高可用;3.HDFS 元数据服务的高扩展性;4.HDFS 数据存储的高扩展性
224 0
HDFS 高可用和高扩展机制分析|青训营笔记
|
存储 缓存 容灾
HBase可用性分析与高可用实践
HBase可用性分析与高可用实践
289 0
HBase可用性分析与高可用实践
|
存储 块存储 缓存
Ceph分布式存储性能调优(六)(上)
Ceph分布式存储性能调优(六)(上)
372 0
Ceph分布式存储性能调优(六)(上)
|
机器学习/深度学习 存储 分布式计算
|
存储 机器学习/深度学习 JSON
探究 | Elasticsearch集群规模和容量规划的底层逻辑
实战中经常遇到的问题: 问题 1:请问下大家是如何评估集群的规模?比如数据量达到百万,千万,亿万,分别需要什么级别的集群,这要怎么评估? ps:自己搭建的测试环境很难达到这一级别。
611 1
探究 | Elasticsearch集群规模和容量规划的底层逻辑