最近大多数大数据应用都部署在裸设备上,这意味着Hadoop大多数部署在非虚拟化服务器上。随着容器和微服务对应用开发圈产生影响,这种情况在发生改变。
容器和微服务都把整个应用程序的代码细分成更小粒度的片段。这样不仅简化了开发,而且更容易测试,这也是设计更灵活应用程序部署方案和代码复用的关键。
早期的时候,这种技术就应用于大数据领域,但是现在看起来在数据流处理、微服务这类领域应用也很有前途。欧洲某顶级电子商务公司的一位技术经理认为,微服务方法简化了开发工作,增强了代码复用能力。
Otto GmbH公司是一家多渠道零售商(产品包括高级铸件以及熔铸设备和半成品工业设备),总部位于德国汉堡。Rupert Steffner是该公司商业智能系统首席平台架构师,他说:“使用微服务方法是非常经济的做法。对于有些类型的应用,忽略微服务的方式是不明智的。你会一遍又一遍地开发相同的功能。”
Steffner谈到的这种类型应用是许多人工智能机器人在公司在线零售网站上运行着各种实时分析任务。Otto使用了微服务整合Docker容器和流处理技术来增强这些AI机器人的功能。
容器和微服务
云计算是推动Hadoop、Spark和其它大数据技术走向虚拟化的主要力量。不过仍然有很多基础设施在云之外构建,各公司都在努力用技术缓解这种演变。
Tom Phelan是BluData软件公司联合创始人和首席架构师,该公司设计的平台可以自动配置Hadoop或Spark集群。他说:“Hadoop大多数运行在裸设备上,不过它也可以运行在虚拟机上。例如,Amazon云和Azure云都使用了OpenStack。现在Hadoop要转向容器了。”
他说:“以前认为Hadoop集群部署在裸设备上性能更优,但现在看来不一定了。”容器需要变得更成熟,而且Hadoop本身设计并不是针对微服务风格的架构。BlueData公司最近更新软件提升了对容器的支持,推出了自动Kerberos配置Hadoop集群和Linux特权访问管理工具。
Hadoop发行版供应商MapR技术公司一位经理表示,敏捷性和流处理也是微服务获益的驱动力。Jack Norris是MapR公司数据和应用高级副总裁,他说客户构建机器人需要有快速适应数据的能力并具备机器学习模型。
他表示,在“事件驱动”架构的应用程序中这一点尤为明显。这种架构越来越多的包含了数据流处理组件。
Norris说,Hadoop和Spark应用流变得越来越复杂,他们变得更难升级了。但是,他认为微服务只是关注数据管道中的事件,这会给这种开发带来更多灵活性。这是与原始Hadoop开发风格相比最根本的变化。
Norris说:“我们看到了开放更宽泛应用程序集的需求。”与此同时,他承诺MapR公司将继续支持现有整块应用程序的风格。
上个月,MapR公司对于大数据应用微服务做了深入实践,为应用程序版本控制提供微服务专用卷,为机器学习模型AB测试设计专用微服务。另外,Norris表示,他们设计了新的参考架构用来指导开发人员利用微服务聚合流数据和实时分析应用。
AI机器人监视“只逛不买”的购物车
随着大数据处理任务变得更复杂,加上相关组件都支持精确的数据流,微系统方法的应用越来越广泛了。Otto公司的Steffner认为,微系统提供了典型的“各个击破”手段来满足架构需求。
上个月在纽约举办的Strata+Hadoop 2016年世界大会上,Steffner表示,Otto公司数据架构中的每个AI机器人都处理特定任务。例如,一个AI机器人查找欺诈交易;另一个针对实时广告位分析建模;还有一个检查空的在线购物车,并对未购买任何商品就打算离开的客户推送最后一轮促销产品。
该公司通过基于Docker的微系统架构实现以上功能,该架构是2015年四月上线的,那时候该公司已经部署传统大数据平台两年了,不过并没有满足全部需求。
Docker容器也非常适合机器人软件。Otto公司在后台安装了混合开源流处理引擎,包括Storm、Spark流处理、Flink和Ignite。不过Steffner说,Ignite是内存数据组织技术,最初是由GridGain系统公司开发的,用来处理当前环境中的批量实时处理工作。
本文转自d1net(转载)