微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙)
参考:http://www.quora.com/Distributed-Systems/What-is-Microsofts-Cosmos
宇宙是微软内部大数据分析平台。
COSMOS宇宙是由分布式计算组件(有点相当于Hadoop的Map/Reduce了使用微软Dryad的解决方案,它(不像的map-reduce)允许计算任意DAG。
COSMOS宇宙支持类似SQL的语法(类似于HIVE/PIG),包括分布式存储组件(与HDFS);总体而言,宇宙提供了高度可扩展的,可靠的,容错以及自动缩放计算的海量数据集的操作。
根据文献[1],[3],宇宙允许使用类似SQL的语法,如
source = EXTRACT col1, col2 FROM “A”
Data = SELECT * FROM source where (condition)
用来提取数据,而不需要明确的Map/Reduce是由用户开发者原始的使用它。
SCOPE语言,就像SQL中,还支持[3]等操作符那里,连接,缩小,以及用户定义的操作符。这些包括减速器(基本上,输入解析)等可编程操作中用户代码[1,3],并且产生平行的,优化的[1]“执行计划”的定义的查询。
COSMOS宇宙是Microsoft内部使用广泛,在巨大的服务器[4]的数量,存储大量数据,并且每天处理数据量庞大的:“我们每一天以 处理数百个PB量级的数据从必应,AdCenter,MSN和Windows Live“[Software Development Engineer, Principal-BING Job] .
我认为这是所有至今所我们公布。
参考公共资源: Page on Microsoft Stuff Yaron Finds Interesting http://hpts.ws/papers/2011/sessi... Page on Microsoft Cloud Storage @Microsoft (with the Cosmos Team) is hiring!