开发者社区> 张包峰> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Tachyon简介及目前可用性分析

简介:
+关注继续查看

简介

翻译tachyon wiki上的介绍

Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件”。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。


使用

鉴于Tachyon也是AMP实验室开发的项目,属Spark整个生态环境里的一部分,原本打算尝试让Spark/Shark在Tachyon上跑,看看速度/性能有没有一些提升。


Tachyon目前发布的release版本是0.2的,支持CDH3。支持CDH4的tachyon-0.3版本还未发布,不过可以在0.3-branch上下载到,需要自己编译打包,依赖的jdk是1.7的。想要部署cluster,让Spark和Shark在上面跑的话,可以参考下面几份wiki,

https://github.com/amplab/tachyon/wiki/Running-Tachyon-on-a-Cluster
https://github.com/amplab/tachyon/wiki/Running-Spark-on-Tachyon
https://github.com/amplab/tachyon/wiki/Running-Shark-on-Tachyon
部署和使用还是很方便的,可以用

./start.sh SudoMount
启动master和所有workers,然后在webui上看到worker情况以及FileSystem内已经存储的文件情况。

./run-tests.sh
测试文件里,写死了$MASTER_ADDRESS的端口,如果在/conf/tachyon-env.sh里修改了端口的话,需要保持一致。


可用性

最近新发布的shark-0.8,发布的pre-built版本是默认不支持tachyon的,因为shark-0.8的标配是spark-0.8,scala-2.9.3和cdh4,而tachyon的支持cdh4的0.3版本如上所述还未正式发布,所以我在shark-0.8上基于tachyon create table的时候,提示版本不支持。具体在SharkBuild.scala里可以看到编译的时候没有enable:

// Shark version
  val SHARK_VERSION = "0.8.0"

  val SPARK_VERSION = "0.8.0-incubating"

  val SCALA_VERSION = "2.9.3"

  // Hadoop version to build against. For example, "0.20.2", "0.20.205.0", or
  // "1.0.1" for Apache releases, or "0.20.2-cdh3u3" for Cloudera Hadoop.
  val DEFAULT_HADOOP_VERSION = "1.0.4"

  lazy val hadoopVersion = env("SHARK_HADOOP_VERSION") orElse
                           env("SPARK_HADOOP_VERSION") getOrElse
                           DEFAULT_HADOOP_VERSION

  // Whether to build Shark with Yarn support
  val YARN_ENABLED = env("SHARK_YARN").getOrElse("false").toBoolean

  // Whether to build Shark with Tachyon jar.
  val TACHYON_ENABLED = false
另一方面,我用shark-0.7跑的时候,会出一些奇怪的问题,在google的tachyon user上看了相关帖子,很多问题和bug都说会在0.3或者future release中解决,觉得tachyon还不够成熟和稳定,暂时还不敢继续尝试使用。至少等到0.3正式发布,再观望一下情况。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Typecho Framework 注入简介
注入是Typecho-Framewrok的重要特性。注入写起来非常优雅,在性能上也有好处(避免了函数开销)。本文简要介绍如何使用Typecho-Framework的注入。如果你不太了解Typecho-Framework,请先参考Typecho Framework简介和Typecho Framework: Hello world!两篇文章。
40 0
SLS开放告警简介
通过SLS的开放告警功能,开发运维人员能够轻松将多种运维监控系统的告警消息接入SLS,从而对告警消息进行统一管理,方便了系统运维工作。
293 0
GreenDAO简介
Android本身自带的SQLite,大家一定都用过,然而在使用它时,我们往往需要做许多额外的工作,像编写 SQL 语句与解析查询结果等。
840 0
wrk简介
wrk简介 wrk 是一个比较先进的 HTTP 压力测试工具。 测试方法: wrk -t8 -c400 -r10m http://localhost:8080/index.html 原文 http://www.oschina.net/p/wrk
755 0
QEMU1.3.0的源码分析一 : 源码目录简介
最近在研究QEMU,读了一些QEMU的源码,因为涉及的东西比较多,找到的资料又都比较破碎,不太完整。所以将最近的成果总结一下。相比其他的开源软件来说,QEMU源码下面目录比较多,下面就先把这些目录的内容大致整理一下。
860 0
ubuntu 10.10安装gtk开发环境
1.配置gcc sudo apt-get install build-essential 2.
587 0
ubuntu 10.10安装gtk开发环境
1.配置gcc sudo apt-get install build-essential 2.安装gtk包 sudo apt-get install vim #使用vim来编写代码,当然您可以使用任何自己喜欢的编辑器 sudo apt-get ins...
644 0
ubuntu 10.10安装gtk开发环境
1.配置gcc sudo apt-get install build-essential 2.安装gtk包 sudo apt-get install vim #使用vim来编写代码,当然您可以使用任何自己喜欢的编辑器 su...
759 0
+关注
张包峰
分布式系统 http://weibo.com/pelickzhang
93
文章
9
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载