本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第3章,第3.3节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看
3.3 关注大局
利用开源Hadoop技术和新兴的打包分析工具,能够使经过SQL培训的商业分析员更加了解开源的环境。最终,在绘制大数据分析路线图时,规模将成为最主要的影响要素。商业分析师将需要规避SQL方法,才能掌握在节点和集群上运行的分布式平台的概念。
此时,至关重要的是思考潜在信息积累的形态。要做到这一点,我们可以先计算出从现在起的6个月内需要收集多少数据,然后确定需要多少台服务器才能处理这些数据。此外,我们还必须确保使用的软件能够满足数据扩展的需要。此时,有人可能会忽视解决方案的潜在成长能力以及将此类方案投入使用后的潜在受欢迎程度,但这种想法属于严重的误解。
随着分析尺度的扩展,数据管理的重要性也将不断提升,在这一点上,大数据与任何其他大规模网络运算并没有什么区别。信息管理实践也是如此,作为曾经在数据仓库领域的关键要素,该实践对于如今的大数据也同样重要。我们必须要记住的是,信息是一种企业资产,我们必须将其视为企业资产加以对待。