如今的数据格局如果没有人工智能就不再完整。商业智能领域出现了一个整合浪潮,这引发了一个问题,是否会推出新一代人工智能?混合云现在不再成为大多数企业的抽象术语。
与五年前不同的是,Hadoop不再是分析大数据的唯一途径。从完整平台到专门的点服务(如Spark、流媒体、数据转换、人工智能)都采用了云计算产品。此外,在云中,对象存储正在成为事实上的数据湖。但是随着Mapr的衰落以及HortonWorks和Cloudera的合并,仍然有着很好的客户基础,至少有两千个蓝筹股客户,并且绝大多数是内部客户,他们每年将支付上百万美元的支持费用。而这些工作负载不会一夜之间转移到云端。
尽管如此,企业将业务迁移到云端是显而易见的。Firstmark公司的调查报告与Ovum公司所做的预测一致,2019年,大多数新的大数据工作负载将从云端开始。FirstMark公司期待出现这一点,但也有一些问题。当企业考虑云计算新的战略工作负载时,有人担心云供应商的锁定。混合云得到了行业厂商的关注,而像IBM这样的基础设施厂商已经在云计算第一轮发展浪潮中错过,因此有些厂商希望获得第二次机会。而Kubernetes并没有迷失,谷歌开源项目让用户更加关注混合云。当然,这也推动了IBM公司以340亿美元收购Red Hat,但其举措远远落后于谷歌Anthos产品,该公司重新打包其Kubernetes服务,企业可以在AWS云平台中运行谷歌云本地工作负载(无需采用谷歌硬件)。
但是人们在采用Kubernetes服务时需要花费时间熟悉和适应,Kubernetes仍然是一块未经打磨的钻石,其安全性、负载平衡、服务配置等方面的最佳实践仍在进行中。尽管如此,FirstMark推测,由于数据科学家或数据工程师希望对他们的环境施加更多的控制,Kubernetes可能会促使他们远离基于云计算的机器学习服务。机器学习对数据的需求非常旺盛,因此,其关键的推动因素或者说障碍,取决于人们的观点,将是企业在内部存储或处理所有数据的能力、意愿、成本等等。而专家对Kubernetes的看法是,对于除了最复杂的企业IT组织之外的所有人来说,它将变得过于复杂,尽管像IBM公司或Pivotal公司这样的第三方的使命是将所有的复杂性隐藏在一个黑盒里。
该报告还研究了复杂分析和机器学习工作负载的无服务器计算的状态,同样认为它处在黄金时期还为时尚早。无服务器随着敏捷开发具有短期流程的应用程序或具有不稳定流量峰值的数据库而变得流行。无服务器的开发简单性,让系统自动调整计算量,对于实现敏捷的开发人员具有吸引力,但是长时间运行的机器学习过程将使无服务器遇到障碍,正如FirstMark公司调查报告所指出的那样。
另一个痛苦的领域将是数据管理和治理,这个问题与一系列新的和拟议的数据隐私法相结合。对于数据库和商业智能的经验丰富的公司和个人来说,这些问题并不新鲜。当企业拥有如此多的数据时,如何找到要查找的内容?数据目录由Alation和Waterline Data等第三方提供,并内置于像Cloudera这样的数据平台。例如,由Google Ventures提供部分支持的Colibra公司最近筹集到1亿美元,但同时,并没有阻止谷歌云计算人员公布他们自己的数据目录,这些数据目录与Collibra的数据目录重叠。但并非所有数据目录都是平等的。有些是高度协作的工具,它们利用机器学习来抓取和构建查询以访问数据,而其他工具则是一些数据字典。
FirstMark公司的调查报告认为,数据沿袭是新兴的另一项技术——它应该告诉人们数据来自何处,并提供审计跟踪,以了解数据是如何被使用的,最好是由谁使用。虽然数据沿袭应该提供单一的真相来源,但面临的挑战是,分析工具、数据目录、数据平台都在记录各自对数据沿袭的看法,提供了拥有很多好处的最新示例。
如果不涉及商业领域的最新一轮整合,那么对2019年数据和分析领域的调查就不会完整,谷歌公司收购Looker公司,Salesforce公司兼并Tableau公司, Alteryx公司收购ClearStory Data公司,以及Logi Analyti公司收购Zoomdata公司。与10年前的商业智能整合浪潮相似的是,Business Objects、Cognos和Hyperion分别被SAP、IBM和Oracle收购。FirstMark公司推测市场的兼容并购可能还没有结束,亚马逊公司可能考虑收购QuickSight。商业智能的下一波创新将是将作为数字助理的机器学习嵌入到业务分析中,帮助选择和清理数据。人们可能会在现有工具中看到很多这种创新,例如Tableau公司的Ask Data自然语言查询,但这也可能是初创企业围绕自然语言和数字辅助进行设计的动力,而不是对其进行改造。
作为商业智能民主化分析,FirstMark公司将机器学习视为下一个适合市场发展的分析领域。它将市场空间分成几个部分:第一个是AutoML,它可以自动化开发和生产机器学习模型的大部分工作,受到云计算用户和第三方(如Data Robot)的关注。第二个是存储桶,主要是第三方的领域,如Dataiku、RapidMiner和H2O,它添加了大量的协作组件。Firstmark公司的调查报告描绘出这些工具将如何解释人工智能模型。
FirstMark公司还在水平服务中看到人工智能活动的温床,例如计算机视觉、自然语言处理、语音到文本,它们正在将数据池的深度学习端商业化。但也提出了一个警告,那就是水平服务敲开了人工通用智能(人工智能越来越接近人类能力)的大门,现在其能力相对有限(他们执行文本翻译等任务,但实际思考能力有限)。因此,市场处于更加早期的发展状态。还有一些常规服务,如Amazon Rekognition,以及谷歌联系中心人工智能等垂直服务的开端。FirstMark公司注意到自然语言处理(NLP)等基线功能的重大改进。
最终,人工智能的最大收益将嵌入到业务应用程序中。这是SAP Leonardo计划背后的主要推动力。Leonardo计划本身不是一种产品或一组产品,但其作用之一是作为一个实验室,让SAP从客户参与中发现生产机会。但Firstmark公司认为这意味着要经历3~4年的漫长旅程。