DII—算法服务利器
随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop
什么是Hadoop?
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
PyOdps 0.4版本发布,从一个故事说起
PyOdps 0.4版本,DataFrame API支持使用pandas进行本地计算,用户因此能join ODPS和本地数据,也能进行本地debug,另外还有MapReduce API等新特性