大数据测试投入生产不会取代Vertica系统

简介:

在新建了四十个服务器之后,TurboTax IT专家发现了基于Vertica大数据搜索时代的漏洞,此时纳税期限也快到了。

当TurboTax数据专家开始注意到Vertica成为征税公司全新的服务器时,离美国税收的最后期限4月15日只剩几周的时间。

就在几个月前,Intuit公司的母公司TutboTax进行集群升级。企业从16戴尔服务器到40作为计划的一部分,将惠普 Vertica大数据分析平台投入生产。

所有公司的业务大多集中在税收季的三个月内,大约一半发生在10天里,这段时间客户会申请填写所得税申报单。

“不确定是输是赢,这是我们最大的挑战,”税收集团的首席数据科学家Massimo Mascaro说。

Vertica公司拥有190名活跃用户,每天有65000个问题。Inuit使用数据来获悉询问用户报税的相关问题。例如,它可以帮助解决退休人员不会问及的学校贷款年轻人不会问及他们的退休收入问题。

“问到这些问题时,会有很多统计推断正在进行,”Mascaro说。

TurboTax还可以预测纳税人是否应该详细列出他们的税收。公司预计这项功能节省了纳税人每年累计200万小时的时间。

去年,TurboTax用16服务器集群运行Vertica作为备份系统,计划进入2015年报税季节生产之前启用40服务器。2014年4月,公司用16个节点进行了一次季度测试,仅有几个生产查询系统利用它来运行,之后的12月份,就开始利用40个节点。

每个节点由一个机架单元的戴尔PowerEdge R620以及两个机架单元的戴尔PowerVault MD1220连接的存储设备组成。

此举仿佛是直觉中的咒语:“在防火测试和防火设施完善之前,是不会投入生产的”。

为了顺利过渡,惠普团队建议TurboTax在相同配置的硬件上运行Vertica来进行生产。新机器与之前的机器应该拥有一样的配置,Mascaro说。

但在今年3月,TurboTax员工发现Vertica的查询时间开始大幅飙升。

临近公司所谓的“第二高峰”——每年税务申报的第二次高峰期,最后一次在4月15日的最后期限之前。TurboTax开始担心,并希望得到惠普的支持。

惠普服务器做了全面分析,发现BIOS在某些机器中的配置不尽相同。48小时后,问题得到了解决,查询时间减少了80%。

“硬件是相同的,但BIOS的配置弄错了,”Mascaro说,“当生产量很大时,Vertica会变得紊乱。”

Intuit员工根本不知道这是一个硬件问题,后来他们才发现已经经历了最严重“性能危机”,Mascaro补充道。

“它看起来很正常,”Mascaro说,“我们可能需要独立地花一段时间把它搞清楚,我们会错过了我们的第二个高峰。”

大数据测试到生产问题

TurboTax遭遇的是从测试到生产过程可能出现众多问题中的一种,专门针对大数据项目和其他需要实时交互性能的应用程序,分析师Mike Matchett说。

在大型服务器环境中投入生产,创造了许多针对服务器配置问题的机会。例如,由于线程的约束,应用程序可能不会利用所有可用的内核和插槽进行适当地自动调整。投入生产也可能产生一些长时间运行的程序,根据低效的共享CPU内存和缓存一致性的理念,这些程序应固定在一个给定的插槽或内核中以避免不稳定。

从测试到生产可能还表明,生产中应用程序的可用内存并非以往认识的那样,也不像在测试中那样会得到最佳配置或分配。

其他IT人员应注意过渡中访问路径的变化,如用户ID和权限,Matchett说。此外,测试环境通常不在其他系统或分批处理的工作负载进行测试,所以服务器管理可以影响处于生产阶段的应用。

担任BMC软件公司UNIX首席性能顾问期间,Matchett始终致力于解决这些问题。

“关于配置错误的问题真是不胜枚举,几本书都写不完。”Matchett说。

原文发布时间为:2015年09月30日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
5月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
5月前
|
存储 数据可视化 数据挖掘
基于大数据的电影可视化、推荐与票房预测系统
本系统基于Python与Flask框架,结合Echarts等技术,实现电影数据的采集、存储与可视化展示。通过对票房、评分、评论等数据的分析,生成图表与词云,帮助用户直观理解电影市场趋势,支持决策制定与观影推荐,提升电影行业的数据分析能力与用户体验。
|
7月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
728 1
|
7月前
|
数据采集 搜索推荐 算法
大数据信息SEO优化系统软件
大数据信息SEO优化系统软件(V1.0)是公司基于“驱动企业价值持续增长”战略,针对企业网站、电商平台及内容营销场景深度定制的智能化搜索引擎优化解决方案。该软件以“提升搜索排名、精准引流获客”为核心目标,通过整合全网数据采集、智能关键词挖掘、内容质量分析、外链健康度监测等功能模块,为企业构建从数据洞察到策略落地的全链路SEO优化体系,助力品牌高效提升搜索引擎曝光度,实现从流量获取到商业转化的价值升级。
148 2
|
4月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
5月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
493 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读