数据目录解决方案旨在处理关键的数据管理问题,对于构建了数据湖或大数据平台的大型企业而言,弄清公司拥有哪些数据是极具挑战性的工作。即使组织知道他们拥有什么数据,也不总是知道哪些数据集是可信任的,哪些数据集的可靠性较差。在这种情况下,数据湖变得更像数据沼泽。
数据目录工具可自动发现整个企业信息系统中的数据源。然后,它使用元数据管理功能来组织数据,显示不同数据之间的关系,通过搜索并跟踪数据沿袭。许多工具还包括数据治理功能并支持用户自助服务,其中一些还包括词汇表,以便用户对术语有共同的理解。
目前,大多数数据目录工具具有人工智能(AI)和机器学习(ML)功能。ML通常会提供一个可信评分,以显示数据的可靠性,同时还可以提供一些建议并进行基本分析。
一、如何选择数据目录软件
如果您正在选择数据目录工具,请牢记以下提示:
- 考虑谁将使用数据目录软件。数据科学家与首席数据官(CDO)的需求截然不同,首席数据官(CDO)与业务分析师和首席财务官(CFO)的需求截然不同。选择工具时,请确保软件或服务的功能符合用户的需求。
- 考虑您的部署需求。许多数据目录工具都可以作为基于云的服务使用,但是如果您有独特的安全性或合规性需求,或者您的数据存储在外部的云和内部部署系统中,那么这并非总是最佳选择。
- 确保它将支持您的工作流程。数据目录软件需要与数据湖或其他数据平台集成,并且需要考虑与您当前的流程相适应。如果您购买的工具需要您对日常活动的方式进行重大更改,您可能会发现该工具用途有限或提供的价值有限。
- 要求演示和详细的价格。一些供应商提供前期定价,但许多供应商不提供。进行全面的总拥有成本(TCO)分析,以确保在评估时比较各种参数以达到最优采购需求。
二、十大数据目录软件
作为一家纯粹的数据治理和数据目录供应商,Alation声称是“业界领先的数据目录”。它在64个国家/地区拥有300,000多个订户,其客户包括Finnair,Blackstone,澳大利亚国防部,陶氏化学,Albertsons,百事可乐,Expedia,PNC,美国运通,General Mills等。它获得了无数赞誉,包括2020年KMWorld客户选择奖,2020年Gartner Peer Insights客户选择奖,并在2020年被评为Forrester Wave机器学习数据目录的领导者。
Alation数据目录的主要功能包括行为智能,无缝协作,引导式导航,数据治理功能以及与流行的大数据和BI工具以及API和Open Connector SDK的连接。它还为金融,医疗保健,保险,制造,零售和技术公司提供量身定制的解决方案。此外,它还有一个庞大的合作伙伴生态系统,其中包括系统集成商,代理商和技术供应商。可根据要求提供定价。该公司提供现场演示,并可以要求进行个性化演示。
优点
- Alation提供了出色的机器学习功能,包括集成到其行为分析引擎中的功能。
- 企业还对Alation的协作功能给予了很高的评价,这对于远程办公的团队特别有用。
- 该公司是数据目录技术的早期开拓者之一,并继续以技术领导者的身份脱颖而出。
缺点
- 一些客户抱怨Alation的许可条款,并说该工具可能非常昂贵。
- 当该公司推出新版本时,该工具有时会出现故障。
- Alation并不总是在数据沿袭方面做得最好,但是最近它改进了在该领域的功能。
总部位于澳大利亚的Alex Solutions将其产品描述为一种元数据管理解决方案,其中包含了数据目录和数据治理功能。它主要为金融、电信,零售和公用事业领域的企业提供服务,并在澳大利亚、欧洲、美洲和亚洲拥有客户。Gartner和Forrester已将其评为市场领导者。
Alex提供数据目录,业务词汇表,策略驱动的数据质量,智能标记,与技术无关的元数据扫描和工作流功能。它的元数据管理功能可用于数据清单,使用情况分析,敏感性检测,数据沿袭支持,风险管理等。它的机器学习功能非常先进,并且具有直观的界面。演示和价格可根据要求提供。
优点
- Alex Solutions产品具有广泛的功能。
- 客户说这很容易部署和使用。
- 亚历克斯的血统分析尤其值得关注。
缺点
- 将Alex产品与数据科学和BI解决方案集成起来并不像使用其他一些数据目录产品那样容易。
- 该产品的协作能力还需要进一步改善。
- 一些客户表示,他们希望为业务用户提供更好的培训。
Collibra旨在通过其数据智能云,平台,数据目录,数据治理,数据沿袭和数据隐私产品使数据有意义。它的客户包括Adobe,AXA XL,DNB,Equifax,霍尼韦尔,NetApp,阿斯利康,瑞士信贷,戴尔,T-Mobile,摩根大通,Progressive,Cigna,洛克希德·马丁,Verizon等。Forrester和Gartner都将该公司评为领导者,并且还获得了《福布斯》,《商业内幕》,Datanami,Battery Ventures等公司的奖项。
Collibra的数据目录产品包括广泛的本地连接,基于ML的自动化,数据评分和嵌入式数据治理功能。定价和演示可根据要求提供。
优点
- 用户对Collibra的数据智能功能和图形技术给予了很高的评价。
- 对于具有复杂数据治理需求和广泛数据源的大型企业而言,这是一个不错的选择。
- 该公司拥有强大的第三方合作伙伴和支持用户群的生态系统。
缺点
- 当用户抱怨Collibra时,通常是他们发现最多错误的界面。
- 一些客户不喜欢公司最近对云产品的重视,因为这可能使遵守安全策略变得困难。
- 虽然该公司在整体服务上获得了良好的评价,但一些客户报告说一些服务代表很差。
Data.world是专注于数据目录功能的纯供应商。它的客户包括AP,Mirum,WPP,Yonder等。Forrester将其命名为“杰出表现者”,而Gartner则将其称为“挑战者”。
作为云技术的本地产品,Data.world提供上下文数据分类,其中包括元数据,仪表板,分析,代码,文档,项目管理和社交协作功能。它还结合了知识图技术并提供实时集成功能。此外,该公司遵循敏捷开发流程,不断发布更新和功能改进。
与许多其他数据目录供应商不同,Data.world在其网站上发布其定价。企业版产品包括Essentials(每年50,000美元及以上),Standard(每年100,000美元及以上),Premier(每个150,000美元)年及以上)和Premier Plus(自定义定价)。提供演示和免费试用版。
优点
- 该产品的前期定价使您很容易计算此工具的成本,并评估其价值是否值得。
- 该工具的用户界面是最易于使用的工具之一。
- Data.world是一家致力于提供社会福利的公益性公司,其中包括免费访问许多数据集,支持数据新闻以及免费提供教育和社区资源。
缺点
- 作为较年轻的产品,Data.world的功能集还不成熟。
- 该公司没有其他供应商那样多的第三方合作伙伴和集成。
- 它没有为美国以外的客户提供太多支持。
Erwin以前是CA Technologies的一部分,后来被Quest Software收购,他专注于企业数据治理体验(EDGE)的产品,包括业务流程建模,企业体系结构,数据建模,数据目录和数据文化。它已经运营了三十多年,其客户包括Adecco,Balfour Beatty Construction,CenturyLink,Fidelity International,苏格兰皇家银行等。它赢得了无数赞誉,包括被Gartner任命为Leader以及被Forrester提名为Contender。
Erwin将Data Catalog(DC)作为独立产品或作为其Data Intelligence套件的一部分提供。Erwin DC的好处包括集中的数据治理框架,元数据驱动的方法,加快的项目交付,提高的数据质量,法规遵从性和准确的分析。它包括元数据管理,映射管理,参考数据管理,生命周期管理,业务数据概要分析和数据集成。某些Erwin产品的价格可在线获得,但对于Data Intelligence和Data Catalog产品,则需要联系代表。可以免费试用。
优点
- Erwin提供了非常广泛的数据治理功能。
- 该公司以擅长数据建模而闻名,这影响了其数据目录功能。
- 供应商拥有庞大,强大的客户,合作伙伴和零售商生态系统。
缺点
- 产品的初始部署可能很复杂且耗时。
- 该产品可能比其他产品更昂贵。
- 该界面不像其他软件那样易于使用。
Google Cloud Data Catalog是Google Cloud数据分析产品的一部分,是一项具有数据发现和元数据管理功能的完全托管的云服务。它可在全球23个不同地区使用。Google还与Collibra,Tableau和Informatica建立了战略合作伙伴关系。
该服务的主要功能包括无服务器架构,元数据即服务,中央目录,搜索和发现,模式化元数据,云DLP集成,本地连接,云身份和访问管理(IAM)集成和治理功能。它提供了一个多维搜索界面,元数据同步和标记,易于扩展的功能以及与云数据丢失防护(DLP)和其他Google Cloud服务的集成。
定价可从网站上获得,但有些复杂。每月最多可免费存储1 MiB,超出的每个GiB每月收费100美元。前100万次API调用是免费的,之后每10万次API调用费用为10美元。新客户还可以使用Google Cloud的免费试用版。
优点
- 使用Google Cloud Services的组织强调其便捷的集成功能。
- 它的可扩展性也得到很高的评价。
- 服务非常实惠。
缺点
- Google服务没有大多数纯服务提供商所提供的功能那么多。
- 它没有与其他某些数据目录产品一样多的数据源集成。
- 由于定价取决于使用情况,因此可能难以根据需求规模估算总成本。
由Pentaho,Hitachi Data Systems和Hitachi Insight Group合并而成,Hitachi Vantara出售存储硬件,融合和超融合基础设施,物联网(IoT)解决方案,视频智能,IT运营管理软件和数据保护软件以及数据管理和分析软件。其Lumada数据目录软件是其数据管理和分析产品的一部分,Kaiser Permanente,Fannie Mae和Johnson Controls等组织都在使用该软件。Forrester将Lumada Data Catalog评为杰出表现者。
基于Hitachi Vantara购买Waterline Data时获得的技术,Lumada Data Catalog提供了非常先进的机器学习和行为智能功能。它保证了更快的数据标记,并包括AI驱动的发现,端到端数据沿袭,自助数据访问,敏感数据管理和跨部门协作等功能。可根据要求提供定价和演示。
优点
- Lumada数据目录具有高度先进的ML和行为智能功能。
- 分析人士说,它的血统分析功能是目前可用的最好的功能之一。
- 客户称赞其界面友好易用。
缺点
- 它的数据治理能力可能需要进一步改善。
- 与某些产品相比,该产品与第三方应用程序的连接数量不多。
- 它的协作能力也有改进的空间。
Infogix成立于1982年,当时是一家名为Unitech Systems的风险与合规软件供应商,现在提供一个名为Data360的数据智能平台,该平台包括数据目录,数据治理,数据质量和数据分析功能。它的客户包括Total Health Care,Swedbank,Keurig和Johnson&Johnson。Gartner将该公司命名为“挑战者”,而Forrester则称其为竞争者。
Data360中的关键数据目录功能包括自动元数据管理,基于机器学习的搜索和发现,智能业务词汇表,数据沿袭,影响分析等。该公司还提供专业服务,培训和支持。演示和价格可根据要求提供。
优点
- 完整的Data360平台具有广泛的数据智能功能。
- 该工具在帮助组织量化其业务数据和管理数据资产的价值方面做得非常好。
- 该软件非常易于使用。
缺点
- 某些功能(如分析功能)还需要进一步完善。
- 在复杂的企业环境中,该工具并非总是能很好地处理大数据量。
- 一些客户抱怨文档不足。
作为最著名的数据目录供应商之一,Informatica提供了一个智能数据平台,该平台集成了多种基于云的企业数据管理产品。其数据目录客户包括Avis预算集团,AXA XL,礼来公司,洛杉矶汽车,友邦保险新加坡和方济各会联盟。Gartner连续五年将公司评为领导者。Forrester将其列为有力竞争者。
Informatica的企业数据目录提供了利用AI技术的企业范围数据发现功能。它在其业务环境中提供了数据的整体视图。关键功能包括AI驱动的自动化,数据供应,端到端数据沿袭,集成的数据质量功能和协作能力。可根据要求提供定价。Informatica提供了一些工具的免费试用版,但没有提供数据目录。
优点
- 使用Informatica工具的组织通常会发现公司的数据目录服务非常适合他们的需求。
- 它的元数据智能引擎是市场上最好的。
- 它具有高度的可扩展性,使其成为组织创建基于云的数据湖的组织的不错选择。
缺点
- 在某些情况下,可能难以部署Informatica的解决方案。
- 企业数据目录没有许多其他数据目录中内置的数据治理功能。
- 一些客户提到了定价和总拥有成本问题。
过去,IBM作为其InfoSphere产品线的一部分提供本地数据目录软件,但是目前它主要专注于基于云的IBM Watson Knowledge Catalog。使用该服务的组织包括Danske银行和Standard Bank Group。Gartner和Forrester均将IBM评为该市场的领导者,该工具还获得了2020年Gartner Peer Insights客户选择奖。
可以通过IBM Cloud Pak for Data将IBM Watson Knowledge Catalog部署在IBM Cloud或私有云上。值得注意的功能包括智能发现建议,端到端目录,自动化数据治理,数据沿袭,质量得分和自助服务。它还包括数据质量,协作和合规性功能。
如果要在IBM Cloud Pak for Data上部署IBM Watson Knowledge Catalog,则需要与公司联系以进行定价。如果您在IBM Cloud上将其作为服务购买,则可以选择三种不同的定价级别:精简版(免费),标准版(每实例300美元,每容量单位小时0.50美元,每增加一个用户50美元)和专业版(7,000美元)每个实例,每个容量单位小时$ 0.40,每个额外用户$ 300)。
优点
- 该服务与其他IBM产品和服务很好地集成在一起。
- Cloud Pak for Data部署选项通常非常适合具有非常大且复杂的生态系统的企业。
- IBM Cloud部署的前期定价使估算成本变得容易。
缺点
- IBM产品的界面不像其他一些可用选项那样易于使用。
- 部署可能既困难又耗时。
- 一些客户抱怨Cloud Pak for Data定价过高。
三、数据目录软件比较