新数据整合的五大方式

简介: 导读:数据整合将是2011年信息技术的重点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/在线信息中找出与业务有关的内容。

导读:数据整合将是2011年信息技术的重点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/在线信息中找出与业务有关的内容。

ETL(提取转换加载)数据仓库,以及新出现的率先加载的变体ELT仍然是主要的整合方式。但是这一方式将得到新出现的动态多源头信息整合和语义整合的补充。这一方式还将受到数据配置(类型、分发和属性特征)的推动。

这些新出现的ETL方式构成了新数据整合。这些方式具备有易用、内嵌应用、侧重于终端用户的整合特点。

新数据整合针对的是大量不同的数据源和需求,以及日益增长的DIY数据分析需要。下面我们将为大家介绍一下Tableau、Attivio、FirstRain、谷歌和Extractiv公司采取的一些相似但又不同的方式。每一个案例都在新数据整合方式中具有代表性。

Tableau: 易于探索

没有任何一家商业智能厂商能够比Tableau软件公司更能体现DIY精神。公司的可视化、探索性数据分析软件能够让终端用户深入挖掘结构性数据源,共享和公布分析结果。Tableau的实力和易用性为公司赢得了大批用户。

在11月份推出的Tableau 6.0版具有“数据融合”功能。其不仅能够通过名称和特征对来自不同的数据域进行连接,还可以求和,如从月份到季度,便于将存储在不同的合计层的数据进行整合。

为了便于融合,该软件还支持“别名”。如能够将州名全称与缩写进行匹配、将产品编号和产品名称进行匹配等等。

在使用中,该软件可以实现预算和销售计划与现货进行比对,用户可以将电子表单中的数值与公司记录进行比对。此外,该软件还具备将外部信息与公司数据进行融合。

与大多数商业智能应用一样,Tableau一直致力于“结构性”数据。但是随着用户开始面对如潮水般的在线和社交源,这一重心必将会发生改变,转变为搜索与文本分析增强型商业智能。

Attivio: 通用与统一

企业搜索和商业智能已经发展了十余年,其主要用于信息孤岛,一个仅限于文档,另一个仅限于从运作和交易系统中收集数据。Attivio的目标是打断数据库和文档之间的壁垒,依靠一个统一目录提供搜索接口。Attivio的努力使得BI界面与分析工具融合在了一起。

Attivio通过API和连接器(由公司和合作伙伴提供)从完全不同的源,或是从文档和数据库、电子邮件、内容管理、以及企业应用系统中收集大量数据。

Attivio主动智能引擎(AIE)先提取内容(文本、元数据、结构信息),然后处理、充实和连接这些内容。公司共同创始人兼首席技术官Sid Probstein称:“充实提取的内容和分类等组件可在整合进程中增加智能。”

Probstein称:“Attivio主要执行‘动态图表生成’。‘动态图表生成’主要基于所发现数据的数值和类型。我们拥有大量组件,这些组件可在小型数据集合被处理后识别和报告整合机会”

FirstRain的时间排序

FirstRain是一种商业信息搜索和监测工具,除了拥有一套关键的公司信息数据库外,其能够从新闻、博客、行业、政府、科研和大学资源等开放网站上挖掘和整合信息。其目标是“获得关联,发现管理或商业结构中的变化,跟踪行业发展趋势。”

公司技术副总裁Marty Betz称:“语义分析应用是指‘商业结构意识’,这对于识别和传递分散于不同资源中的相关商业信息十分关键。同时,这也对是否有能力将从公开网站上发现的信息依时间顺序进行整合十分关键。”

Betz称:“通过利用我们的方式分析信息流,系统能够动态建模,及时调整它们对公司和行业周边市场环境的理解。”

谷歌将目光转向相似性

当然,谷歌是网络世界中的王者,他们的目标是对互联网接入世界进行索引。利用与Endeca相似的搜索特性,谷歌可以从隐藏在冗长内容(如网页/文档类型、发布日期和位点)中的元数据、结构和语境中,以及包含情绪分析在内的内容分析技术中受益。谷歌目前正将自己由搜索引擎转变为信息存取提供商。

谷歌的决策者正在探讨诸如“合并众多商户分类”的应用。这很明显表明他们的兴趣是将谷歌变成一个在线比较购物的工具。

目前他们正在讨论基于统计学相似度测量的“软连接”。如果你使用硬识别标识,他们也能从中获得优势。硬识别标识是指能够作为明确标识的识别标识。他们会提供ISBN、UPC 以及Web URL。

URL(统一资源定位符)是一种统一资源标识(URI),其用来指定访问机制,如HTTP和FTP。URI对于处于发展初期的语义网中的互链数据整合至关重要。

Extractiv 关注实体

Extractiv是一家新公司,主要业务是网页蜘蛛技术与语义注释和分析软件整合在一起。Extractiv提供了SaaS(软件即服务)文本分析,可以识别如个体名称、公司、地点等“实体”,以及源文本中实体的情绪与关系。

大量类似Extractiv的服务支持超网络文本(和情绪)分析,这其中比较典型的是Orchestr8的 AlchemyAPI、Clarabridge、Evri、Lexalytics、OpenAmplify、Saplo和汤森路透的OpenCalais 和Zemanta。还有一部分提供对互链数据网络的访问。你可以通过Extractiv体验这种能力。

整合道路展望

为了提高每一个系统处理多类型、复杂数据的能力,我们需要做这一工作。虽然我们展示了一些新数据整合案例,但是许多公司需要取得重大进步才能面对来自技术和业务的挑战。在今后,整合仍然会沿着易用、内嵌应用、以终端用户为重点这条道路发展。

原文链接:http://www.cnw.com.cn/news-report/htm2011/20110119_216694_2.shtml

目录
相关文章
|
1月前
|
人工智能 安全 搜索推荐
2024年度云治理企业成熟度发展报告解读(四)支柱结构关系及案例分享
从组织、成本、稳定、安全到性能、效率这样一个路径,我们一定要有策略地完成各个支柱之间的互相配合。云治理不仅仅是技术问题,而是需要多团队合作和管理策略的制定。
2024年度云治理企业成熟度发展报告解读(四)支柱结构关系及案例分享
|
4月前
|
存储 调度 数据库
软件研发核心问题之数据从哪里来,主要包括哪些类型的数据的问题如何解决
软件研发核心问题之数据从哪里来,主要包括哪些类型的数据的问题如何解决
|
3月前
|
存储 人工智能 算法
高质量存储力发展问题之“存储即平台”的定义如何解决
高质量存储力发展问题之“存储即平台”的定义如何解决
12 0
|
6月前
|
存储 供应链 搜索推荐
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
分布式商业的运作逻辑是以资源和能力要素为后端,以数字化资源为关键生产要素,以分布式网络(web3.0)为市场资源配置纽带,前端洞察出需求后,资源、资产、人才等能力要素则迅速向解决消费者的需求去倾斜,资源云化,资产数权化,随需而取,随需转移,从而实现供需资源的有效匹配。
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
|
6月前
|
分布式计算 运维 并行计算
OneData是阿里巴巴内部进行数据整合及管理的方法体系和工具
OneData是阿里巴巴内部进行数据整合及管理的方法体系和工具
553 2
|
数据采集 存储 监控
【建议收藏】|某大型金融集团内部数据治理实战总结
近几年,企业都在做数字化转型。 数字化转型是为了使组织更好地适应数字时代的变革,提高效率、降低成本、增强竞争力。是将业务和流程数字化,以实现更快、更准确、更可靠的数据处理和决策。是以数据驱动的精细化运营、业务创新增长和商业模式创新。
1218 0
【建议收藏】|某大型金融集团内部数据治理实战总结
|
数据采集 监控 Oracle
谈谈如何构建基于业务价值驱动的数据治理运营模式
成功的组织有各种各样的规模。这些公司的共同特点是,在优化业务流程执行的同时,通过最大化客户服务来挖掘其全部潜力。
谈谈如何构建基于业务价值驱动的数据治理运营模式
|
存储 监控 安全
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
|
数据采集 存储 供应链
谈谈大型集团数据资产管理能力建设方法
对于大型集团企业来讲,数字化转型的成败直接关系到集团的可持续发展,尤其当前最紧迫的任务就是数据体系建设。
|
安全 开发者
内部开源:如何在企业内部发挥开源的魔力
将开源开发的方法应用于企业内部可以提高创新能力,缩短产品上市时间,并使员工和客户感到满意。 各行各业、规模各异的公司都在实施内部开源的工作方式,以推动更高水平的开发协作和代码重用。他们的最终目标是提高创新力,缩短上市时间,培养、保留和吸引人才,当然,还有让他们的客户满意。 本文将介绍内部开源和其中的一些重点,还有内部开源可以帮助解决哪些问题。我还会讨论包括指标在内的内部开源流程中的一些组成部分。 什么是内部开源? 内部开源是把开发开源软件中学到的经验教训应用到公司内部开发软件的实践。因为它是在公司环境中完成的,所以内部开源是在公司内部网络中发生的。 在内部开源中,开发人员将会有相应的回报
417 0