内置在日立内容产品组合对象存储中的Hitachi Content Intelligence(日立内容智能解决方案)可从存储库中提取数据和元数据,以便对非结构化数据执行数据分析操作。
日立数据系统公司已为其基于对象的日立内容产品组合,设计开发了一个高级的内容搜索与分析功能。
Hitachi Content Intelligence可从存储库中提取数据和元数据以便对非结构化数据执行数据分析操作。该软件内置于日立内容产品组合中,它是基于Docker容器技术作为集群架构而开发的。IT管理员们可以将其部署在裸机系统、虚拟环境或公有云中。该内容智能解决方案需要64位版Linux、Docker 1.10版的支持,是基于开源集群管理器Apache Mesos设计的。
“长期以来,日立公司都在市场上为用户们提供着强大的对象存储解决方案,”总部位于加利福尼亚州Santa Clara市HDS公司的内容智能解决方案产品营销高级总监Scott Baker说。“我们真正需要的是一个能够将数据理解(分析)到位的解决方案。其基本理念就是打破数据孤岛,并将其连接至所选的数据源,例如亚马逊S3(简单存储服务)或微软Azure或文件系统。”
Baker表示,Hitachi Content Intelligence引擎可通过特定连接器成功提取对象存储元数据或文件系统元数据,然后通过一个提取、转化和加载管道加载信息以便于理解数据的各种特性,因此可将其置于索引中或移动到HCP存储库中以实现数据迁移。
“可对数据应用一些操作步骤,以便后续分析,”Baker说。“Hitachi Content Intelligence能够理解文档,然后对其进行分类,例如zip文件或PDF或视频文件。我们可以对其应用不同类型的自定义数据,例如社会安全号码的模式匹配或寻找不同的数据格式。”
其解决思路就是集中有组织的数据,然后将其转化为有价值且相关的业务信息。该工具可自动实现同一组织内部不同部门或级别数据的提取、分类与归类。
451研究公司存储技术高级分析师Steven Hill表示,这种类型的内容智能处理技术是对象存储及其元数据的一个提升发展,它可用于更为复杂和精细的数据分析应用。
“我认为,元数据的使用是长期数据管理的关键所在,”Hill说。“元数据是或多或少包含数据本身详细信息的数据库条目,它可作为存储环境的一部分与数据保存在一起。这些数据库条目可用于以一种传统文件和块系统所不能实现的方法来建立用于处理数据的策略。
“元数据可用作一个挖掘、管理和移动数据的工具,而不用考虑其所处位置。而日立内容智能解决方案平台所做的一切就是开发出良好的元数据并帮助客户了解元数据是如何有助于实现其业务和IT目标的。”
Hitachi Content Intelligence拥有最多36种数据分析方法,并可创建一个元数据的自定义子集以供模式匹配使用。客户可为特定数据集编写他们自己的自定义属性,或者从诸如合规性或医疗记录这样的特定数据源中提取有用信息。HCP的搜索引擎可允许用户根据查询操作来提取信息,从而挑选出有待进入传输和载入过程而需排序的文件。
“一旦用户定义了连接器,之后工作流就可被设计为一个拖放的操作。用户还可以通过测试来明确流程管道是如何影响索引末尾或随HCP迁移的相关关联文档的,”Baker说。“这种设计可允许用户查看可定义产生一般结果的过程,而这正是用户可从中受益的一个环节。”
Baker表示,这个软件工具还可允许管理员们进行测试以确保根据特定查询提取和载入内容的正确性。
本文转自d1net(转载)