大数据测试投入生产不会取代Vertica系统

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

在新建了四十个服务器之后,TurboTax IT专家发现了基于Vertica大数据搜索时代的漏洞,此时纳税期限也快到了。

当TurboTax数据专家开始注意到Vertica成为征税公司全新的服务器时,离美国税收的最后期限4月15日只剩几周的时间。

就在几个月前,Intuit公司的母公司TutboTax进行集群升级。企业从16戴尔服务器到40作为计划的一部分,将惠普 Vertica大数据分析平台投入生产。

所有公司的业务大多集中在税收季的三个月内,大约一半发生在10天里,这段时间客户会申请填写所得税申报单。

“不确定是输是赢,这是我们最大的挑战,”税收集团的首席数据科学家Massimo Mascaro说。

Vertica公司拥有190名活跃用户,每天有65000个问题。Inuit使用数据来获悉询问用户报税的相关问题。例如,它可以帮助解决退休人员不会问及的学校贷款年轻人不会问及他们的退休收入问题。

“问到这些问题时,会有很多统计推断正在进行,”Mascaro说。

TurboTax还可以预测纳税人是否应该详细列出他们的税收。公司预计这项功能节省了纳税人每年累计200万小时的时间。

去年,TurboTax用16服务器集群运行Vertica作为备份系统,计划进入2015年报税季节生产之前启用40服务器。2014年4月,公司用16个节点进行了一次季度测试,仅有几个生产查询系统利用它来运行,之后的12月份,就开始利用40个节点。

每个节点由一个机架单元的戴尔PowerEdge R620以及两个机架单元的戴尔PowerVault MD1220连接的存储设备组成。

此举仿佛是直觉中的咒语:“在防火测试和防火设施完善之前,是不会投入生产的”。

为了顺利过渡,惠普团队建议TurboTax在相同配置的硬件上运行Vertica来进行生产。新机器与之前的机器应该拥有一样的配置,Mascaro说。

但在今年3月,TurboTax员工发现Vertica的查询时间开始大幅飙升。

临近公司所谓的“第二高峰”——每年税务申报的第二次高峰期,最后一次在4月15日的最后期限之前。TurboTax开始担心,并希望得到惠普的支持。

惠普服务器做了全面分析,发现BIOS在某些机器中的配置不尽相同。48小时后,问题得到了解决,查询时间减少了80%。

“硬件是相同的,但BIOS的配置弄错了,”Mascaro说,“当生产量很大时,Vertica会变得紊乱。”

Intuit员工根本不知道这是一个硬件问题,后来他们才发现已经经历了最严重“性能危机”,Mascaro补充道。

“它看起来很正常,”Mascaro说,“我们可能需要独立地花一段时间把它搞清楚,我们会错过了我们的第二个高峰。”

大数据测试到生产问题

TurboTax遭遇的是从测试到生产过程可能出现众多问题中的一种,专门针对大数据项目和其他需要实时交互性能的应用程序,分析师Mike Matchett说。

在大型服务器环境中投入生产,创造了许多针对服务器配置问题的机会。例如,由于线程的约束,应用程序可能不会利用所有可用的内核和插槽进行适当地自动调整。投入生产也可能产生一些长时间运行的程序,根据低效的共享CPU内存和缓存一致性的理念,这些程序应固定在一个给定的插槽或内核中以避免不稳定。

从测试到生产可能还表明,生产中应用程序的可用内存并非以往认识的那样,也不像在测试中那样会得到最佳配置或分配。

其他IT人员应注意过渡中访问路径的变化,如用户ID和权限,Matchett说。此外,测试环境通常不在其他系统或分批处理的工作负载进行测试,所以服务器管理可以影响处于生产阶段的应用。

担任BMC软件公司UNIX首席性能顾问期间,Matchett始终致力于解决这些问题。

“关于配置错误的问题真是不胜枚举,几本书都写不完。”Matchett说。

原文发布时间为:2015年09月30日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
监控 测试技术
如何进行系统压力测试?
【10月更文挑战第11天】如何进行系统压力测试?
83 34
|
18天前
|
存储 监控 网络协议
服务器压力测试是一种评估系统在极端条件下的表现和稳定性的技术
【10月更文挑战第11天】服务器压力测试是一种评估系统在极端条件下的表现和稳定性的技术
88 32
|
4天前
|
编解码 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(10-2):保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali——Liinux-Debian:就怕你学成黑客啦!)作者——LJS
保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali以及常见的报错及对应解决方案、常用Kali功能简便化以及详解如何具体实现
|
21天前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
37 1
|
24天前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
35 4
|
24天前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
47 1
|
24天前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
39 1
|
24天前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
63 1
|
25天前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
21 0
|
25天前
|
存储 SQL 分布式计算
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
29 0

热门文章

最新文章