大数据项目缘何失败?分析模型需要与业务相结合

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

【TechTarget中国原创】 目前主流的商务智能和分析应用主要关注的是如何从已有数据中提取业务价值,反映公司发展、客户行为和业务趋势。是面向过去的。而一些新兴的数据分析技术已经把目光投向了未来——预测分析。企业通过采用大数据分析技术预测未来可能发生的事情。

但是,预测建模和数据挖掘技术要想准确地预测出客户行为,制定有效的企业战略,需要处理大量的多种类型的数据。医疗保险和医疗保健服务供应商Highmark负责企业信息战略和数据分析的副总裁Mark Pitts表示,要真正落实预测分析,企业需要做的不只是给分析人员配备预测建模工具这么简单。

现在通常是数据科学家和统计分析人员自己写算法,构建预测模型。Pitts认为,算法和分析模型需要经历创建、测试和运行的阶段,在数据产生之前,这些工作应该是已经做好了的。“要解决一个问题,其实百分之八十的时间都花在信息收集上,而信息收集一开始就应该和业务相关联。”

Pitts认为,大数据项目一开始就要有建模人员参与其中,建模人员需要将自己的数学知识和企业的业务知识相结合。不能解决具体业务问题的算法写的再好也不能为企业所用。在Pitts的团队里,他总要让数据分析人员和业务人员多交流,让数据科学家了解自己要解决的问题,这样他们才能充分利用数据,解决业务问题。

技术与业务不能各自为政

咨询公司Hurwitz & Associates的总裁兼CEO Judith Hurwitz也同意Pitts的观点。她认为,大数据分析项目主要是对数据进行挖掘,找出和企业相关的信息。这个过程中,需要建模人员与业务用户的合作。建模工作不能孤立地完成。

随着企业不断的收集、存储和分析大数据,企业利用数据的方式也在发生改变。她说道:“一开始的时候,企业更感兴趣的是数据收集,把一堆数据放到Hadoop或者其他存储系统里。慢慢地,企业更希望合理利用数据,达成具体目标,比如增加利润、节省支出等。这意味着预测模型的构建需要以具体的业务目标为基础。”

咨询公司Abbott Analytics的总裁Dean Abbott也认为,如果建模人员不了解业务,预测分析就不能发挥出价值。“无论是不是大数据,建模都应该以特定的业务问题为基础。我见到过很多公司的数据项目都因为技术人员不懂业务而失败,结果往往是建模本身很好,但却没法实际应用。”

成功的项目来源于无数次的失败

Pitts介绍到,在他的公司,业务问题和相关的数据集一旦确立,预测模型的开发基本上是一个可迭代的过程。分析团队会创建多种不同的模型,比如线性回归模型和神经网络模型,从而找出最适合使用的应用程序。在建模的同时,技术人员会建立独立的数据沙箱,包含相关信息,并且与数据库隔开。这样技术人员就可以深入了解不同的选项,测试不同的样机模型。确保模型能够正常交付使用。

Pitts所在的Highmark公司使用的是SAS软件供应商的数据建模、数据挖掘和分析工具。他们的建模首先关注的是对保险理赔和健康档案的分析,公司借此判断哪些患者需要额外的医疗服务(比如没有接受接种育苗、后期护理的人)、哪些人的症状表明他有可能患有疾病(比如糖尿病、心脏病)。分析团队也会关注临床干预,帮助患者快速恢复健康,或降低医疗成本。

因为数据科学家需要尝试不同的方法构建数据模型,所以这个过程要花费较长时间,而且经常会失败。Pitts指出,正因为如此,项目需要获得高层领导者的支持,这样才能保证项目能够持续下去。项目管理者要让业务领导和企业领导了解项目的特点,不能让项目因为失败或成本过高而流产。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
22天前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
1月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
205 4
|
28天前
|
JSON 大数据 API
巧用苏宁易购 API,精准分析苏宁易购家电销售大数据
在数据驱动的电商时代,精准分析销售数据能助力企业优化库存、提升营销效果。本文详解如何利用苏宁易购API获取家电销售数据,结合Python进行数据清洗与统计分析,实现销量预测与洞察提取,帮助企业降本增效。
39 0
|
3天前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
80 49
|
8天前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
18天前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
|
21天前
|
机器学习/深度学习 搜索推荐 算法
基于python大数据的口红商品分析与推荐系统
本研究基于Python大数据技术,构建口红商品分析与推荐系统,旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为,实现个性化推荐,提升购物体验与品牌营销效率,推动美妆行业数字化转型,具有重要现实意义与市场价值。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
1月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。
|
1月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。

热门文章

最新文章