Hitachi Content Intelligence:可实现数据搜索与分析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介:

内置在日立内容产品组合对象存储中的Hitachi Content Intelligence(日立内容智能解决方案)可从存储库中提取数据和元数据,以便对非结构化数据执行数据分析操作。

日立数据系统公司已为其基于对象的日立内容产品组合,设计开发了一个高级的内容搜索与分析功能。

Hitachi Content Intelligence可从存储库中提取数据和元数据以便对非结构化数据执行数据分析操作。该软件内置于日立内容产品组合中,它是基于Docker容器技术作为集群架构而开发的。IT管理员们可以将其部署在裸机系统、虚拟环境或公有云中。该内容智能解决方案需要64位版Linux、Docker 1.10版的支持,是基于开源集群管理器Apache Mesos设计的。

“长期以来,日立公司都在市场上为用户们提供着强大的对象存储解决方案,”总部位于加利福尼亚州Santa Clara市HDS公司的内容智能解决方案产品营销高级总监Scott Baker说。“我们真正需要的是一个能够将数据理解(分析)到位的解决方案。其基本理念就是打破数据孤岛,并将其连接至所选的数据源,例如亚马逊S3(简单存储服务)或微软Azure或文件系统。”

Baker表示,Hitachi Content Intelligence引擎可通过特定连接器成功提取对象存储元数据或文件系统元数据,然后通过一个提取、转化和加载管道加载信息以便于理解数据的各种特性,因此可将其置于索引中或移动到HCP存储库中以实现数据迁移。

“可对数据应用一些操作步骤,以便后续分析,”Baker说。“Hitachi Content Intelligence能够理解文档,然后对其进行分类,例如zip文件或PDF或视频文件。我们可以对其应用不同类型的自定义数据,例如社会安全号码的模式匹配或寻找不同的数据格式。”

其解决思路就是集中有组织的数据,然后将其转化为有价值且相关的业务信息。该工具可自动实现同一组织内部不同部门或级别数据的提取、分类与归类。

451研究公司存储技术高级分析师Steven Hill表示,这种类型的内容智能处理技术是对象存储及其元数据的一个提升发展,它可用于更为复杂和精细的数据分析应用。

“我认为,元数据的使用是长期数据管理的关键所在,”Hill说。“元数据是或多或少包含数据本身详细信息的数据库条目,它可作为存储环境的一部分与数据保存在一起。这些数据库条目可用于以一种传统文件和块系统所不能实现的方法来建立用于处理数据的策略。

“元数据可用作一个挖掘、管理和移动数据的工具,而不用考虑其所处位置。而日立内容智能解决方案平台所做的一切就是开发出良好的元数据并帮助客户了解元数据是如何有助于实现其业务和IT目标的。”

Hitachi Content Intelligence拥有最多36种数据分析方法,并可创建一个元数据的自定义子集以供模式匹配使用。客户可为特定数据集编写他们自己的自定义属性,或者从诸如合规性或医疗记录这样的特定数据源中提取有用信息。HCP的搜索引擎可允许用户根据查询操作来提取信息,从而挑选出有待进入传输和载入过程而需排序的文件。

“一旦用户定义了连接器,之后工作流就可被设计为一个拖放的操作。用户还可以通过测试来明确流程管道是如何影响索引末尾或随HCP迁移的相关关联文档的,”Baker说。“这种设计可允许用户查看可定义产生一般结果的过程,而这正是用户可从中受益的一个环节。”

Baker表示,这个软件工具还可允许管理员们进行测试以确保根据特定查询提取和载入内容的正确性。

本文转自d1net(转载)

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
5月前
|
存储 人工智能 搜索推荐
Azure Machine Learning - 什么是 Azure AI 搜索?
Azure Machine Learning - 什么是 Azure AI 搜索?
117 0
|
24天前
|
存储 自然语言处理 文字识别
文档智能(Document Mind)评测报告
评测主题:文档解析(大模型版)能力最佳实践测评 & 服务体验评测
|
5月前
|
搜索推荐 智能硬件
PAI(Personal Activity Intelligence)是一种动态的、个性化的健康评分系
【4月更文挑战第12天】PAI(Personal Activity Intelligence)是一种动态的、个性化的健康评分系
307 1
|
搜索推荐 索引
白话Elasticsearch22- 深度探秘搜索技术之match_phrase_prefix实现search-time搜索推荐
白话Elasticsearch22- 深度探秘搜索技术之match_phrase_prefix实现search-time搜索推荐
82 0
|
分布式计算 自然语言处理 Java
白话Elasticsearch17-深度探秘搜索技术之match_phrase query 短语匹配搜索
白话Elasticsearch17-深度探秘搜索技术之match_phrase query 短语匹配搜索
104 0
|
机器学习/深度学习 算法 数据可视化
ECCV 2022 | 谷歌提出Data-free NAS,网络搜索仅需一个预训练模型
ECCV 2022 | 谷歌提出Data-free NAS,网络搜索仅需一个预训练模型
183 0
|
机器学习/深度学习 Web App开发 自然语言处理
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
|
搜索推荐 API
神兵利器|聚合型空间搜索引擎工具-Search_Viewer
神兵利器|聚合型空间搜索引擎工具-Search_Viewer
208 0
神兵利器|聚合型空间搜索引擎工具-Search_Viewer
|
自然语言处理
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
162 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
|
自然语言处理 监控 算法
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
293 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)