随着更多新兴工具和技术的出现,许多企业正在努力应对当今大数据和数据科学生态系统的复杂性。
根据TDWI(数据仓库研究所)的最新研究,专业数据科学家的短缺仍然是企业面临的数据科学的挑战之一。
TDWI公司副总裁兼研究总监Fern Halper说:“我们经常听到很多组织表示,在数据科学环境中面临的最大挑战是找到合适的技术和工具。”
该研究收集了超过300家企业的大数据和数据科学经验。大数据分析和数据科学经验这两个主题越来越融合,因为组织需要了解过去几年中收集大量数据的工作者。
此次调查的受访者列举的其他常见挑战还有:缺乏对大数据工具的了解,缺乏利用大数据所需的企业架构,安全和隐私问题以及治理协议不足等问题。
尤其是技术方面的问题特别棘手。Halper表示,在过去几年中出现了许多新工具,包括Hadoop,Spark,Python等等,企业很难确保跟上这些新工具、新技术快速发展的步伐。
有些受访者认为很多技术让人眼花缭乱,其中不乏炒作的因素,他们有时不知道该怎样面对技术的迭代更新。另外一些人认为技术和工具变更速度很快,如果缺乏敏捷性,他们不一定能保持最好的架构。
现在,企业都在使用自己熟悉的工具和技术应对数据科学的挑战。约80%的受访者表示他们目前使用数据仓库工具作为主要数据源。对于分析而言,简单的查询和数据可视化工具是最常用的。在接下来的两年中,数据仓库工具将依然广受欢迎,与此同时,Hadoop和开源R也受到更多企业的青睐。
Halper说,调查结果显示出非结构化数据查询和预测分析(包括机器学习)的强劲势头。这些新兴工具和技术似乎将在未来将彻底取代更多的工具。
“数据仓库不会消失,但它正被其他类型的平台取代,并创建一个生态系统,” Halper说, “预测分析是一项热门技术,再加上机器学习的驱动,未来的发展势头不可小觑。”
本文转自d1net(转载)