随着大数据的应用不断发展与扩大,企业面临着新的机遇和挑战。企业可以通过大量数据揭示新的见解或策略,但必须注意不要被庞大信息的大山所压倒。正如数据专家所言,考虑到数据存储的成本增加因素,与非结构化数据的海洋相比,少量的有组织的智能数据更加有用。
因此,大数据需要适当的管理,确保企业能够同时轻松访问和保护他们的信息资源。以下是关于数据管理科学以及管理人员可以做的一些重要的事情。
存储和“数据湖”的挑战
企业的管理者必须记住,人们所说的“大数据”可以更准确地定义为“分散数据”。大数据的区别因素是传统的集中式数据库根本无法有效存储或处理数据,就算数量没有达到PB级,其大小可能会达到数百TB。
组织正在转向采用其他解决方案,如云计算,但在大数据管理中经常被提及的一个概念是数据湖。数据湖基本上是一个存储库,通常使用Apache Hadoop,可以使用元数据标签转储和标识数据。如果业务中的一个组织寻求某些类型的数据,他们可以使用元数据标签来提取较小的数据块。此外,拥有一个数据湖储存库意味着企业内的各个部门可以更容易地从另一个部门访问,从而实现更全面的数据方法。
但是,尽管数据湖可以解决大数据存储问题,但管理不善的数据湖可能使所有数据几乎无用,因为用户不可能可靠地得知数据湖的实际情况。元数据标签对于显示数据及其来源绝对至关重要。必须不断更新和监控这些标签,以便在出现新问题时,会出现一个元数据标签,可以接近有关于所有问题的所有相关数据。
编目和创建元数据标签需要新的软件,如Microsoft Azure以及专门的数据库。但是,如果企业业务只是创建一个数据湖,以便在没有计划的情况下转储信息,那么将会是一种浪费时间的行为。
复制数据和虚拟化
即使使用有效管理的数据湖,存储大数据也是具有挑战性,并且将所有数据集合在一起可能提供新的挑战。数据湖是来自不同部门的信息合并的地方,但是每个部门可能会复制一个特别有用的数据集,并将其用于自己的目的。但是,虽然每个部门都使用相同的数据集,但常数拷贝意味着所提供的数据集可能比之前占据的空间多10甚至20倍,却不能提供任何新的见解。
幸运的是,这个复制问题可以用虚拟化软件来解决。虚拟化基本上只创建一个仅使用软件的虚拟计算机系统。这允许多个操作系统在单个服务器上运行,通过不断复制相同的数据来提高效率。而通过虚拟化,不同部门可以使用完全相同的数据足迹。
隐私和安全
企业必须重视大数据,而且还需要了解大数据带来了犯罪和黑客的独特隐私和安全风险。请记住,很多大数据是个人数据,因此受到政府机构的监管。大数据可用于揭示不仅仅是新的业务策略,而且可以用于推断数据在数据湖中的个人信息。虽然企业的业务可能了解保护信息的重要性,但那些对于安全不太谨慎的企业可能会与别人分享大量的数据。一个大的数据泄露事件可能会给企业造成数百万美元的直接损失,此外还有企业声誉的损失。
所有这些意味着保护大数据必须端到端进行。限制对服务器的物理访问,监控大数据账户以防止黑客入侵,并确保企业的数据不会被恶意人员所损害,确保您的软件安全。企业也可以考虑让客户了解所拥有的个人信息,并根据要求将其删除。企业的业务仍将拥有大量数据,并促进客户的善意使用。
保护客户安全和有效存储大数据,使用户能够搜索相关信息只是强大的数据管理实践的几个方面,但它们是一些最重要的。最重要的是,企业管理层必须明白,大数据本身是无意义的。只有通过保持灵活的方式将没有进行组织的大数据转化为结构化智能数据,企业才能获得最有价值的见解。
本文转自d1net(原创)