机器学习的挑战:在开始之前需要知道什么

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 机器学习的回报是众所周知的,它可能会让您想现在就开始。然而,与此同时,在开始自己的项目之前,您应该考虑一下机器学习的挑战。 这篇文章并不是要吓跑您,相反,这样做是为了确保您做好了准备,并在开始之前仔细考虑所需注意的事项。

机器学习的回报是众所周知的,它可能会让您想现在就开始。然而,与此同时,在开始自己的项目之前,您应该考虑一下机器学习的挑战。

这篇文章并不是要吓跑您,相反,这样做是为了确保您做好了准备,并在开始之前仔细考虑所需注意的事项。

本文据数据科学家Brian MacDonald访谈,他谈到了他所看到的陷阱,以及公司可以采取哪些措施来避免这些陷阱。

这些机器学习的挑战包括:
• 解决技能差距
• 知道如何管理您的数据
• 数据运

1. 解决机器学习技能的差距
当然,最大的困难是在大数据环境中使用机器学习的技能差距。有一群人认为大数据让生活更美好,而且很容易上手。

您将发现最大的挑战是找到合适的人。机器学习的人才需求量很大,可供选择的人才很少。但获得高管的支持是实现这一目标的关键。如果您有高层管理人员的支持,那么您还将获得寻找和招募这些宝贵人才的资金。

这是要考虑的事情:如果您处于一种由于经验丰富的数据科学家很昂贵而对成本非常敏感的情况,那么你可能没有足够大的商业问题来让机器学习变得值得去做。

假设一位经验丰富的数据科学家要花费您公司3-40万美元(包括所有的福利和奖励)。如果该人不能帮助您解决每年至少价值一百万美元的问题,那么您可能不需要他。对吗?

另一方面,如果您真的相信这个人(或团队)可以帮助您解决数千万的问题,那么您还在等什么呢?

很难找到人。但如果这对您的公司真的很重要,您可以找到他们。

这里还有一个需要考虑的问题:工具和软件。当然,有一些工具会有所帮助,但您很难立即找到您需要的:准确的、完美的、开箱即用的机器学习工具。您必须考虑将要使用的工具。

Python, R, SQL, TensorFlow…如果您使用它们,它们将如何与您的数据湖一起工作?您将如何处理可能带来挑战的设置和配置?开始之前请仔细考虑所有细节,并确保您有足够的资金。

2.知道如何管理大数据
机器学习是一个混乱的过程。仅仅拥有一个大数据平台并不意味着它会变得更容易。事实上,这可能会使它变得更混乱,因为您将拥有更多的数据。这些数据使您能够做更多的工作,但这也意味着必须完成更多的数据准备工作。

你必须全盘考虑如何处理这个问题。以下是一些需要思考的问题:
• 您的数据来自哪里?
• 您打算怎样处理这个问题?
• 您希望如何处理数据准备工作?
• 完成后,您将如何构建模型并实现所有操作?

如果您还没有一个好的BI实践或分析实践,如果您还没有以您能想到的所有方式使用数据,那么跳到机器学习将是一个真正的挑战。已经有数据驱动的决策绝对至关重要。如果您还没有,我们建议您在开始机器学习之前就做好了准备。

如果您决定开始,那么这里还有其他一些注意事项。在开始之前,请仔细考虑它们:
快速变化:在机器学习的世界里,创新来的很快,这意味着快速的变化。今天的好东西明天可能就不那么好了,而且你不能总是依赖软件,因为它是一个更不稳定的空间。不同的版本和冲突可能会带来更多的问题。
庞大的数据量:借助机器学习,您将不得不处理大量数据以及许多不同类型的数据。了解您是否使用所有这些信息,过程,是否采样等都是挑战,尤其是当您深入了解数据并处理数据移动时。

确保您已准备好应对挑战,并制定了计划。

3.大数据的运作
大多数数据科学家面临的最大问题是什么?是数据的运作。

假设您已经建立了一个模型,它可以预测导致客户流失的因素。您如何把这个模型推广给那些能影响这些数字的人?您如何将其导入CRM系统或移动应用?

如果您拥有可以预测设备故障的模型,那么如何及时将其告知操作员以防止发生故障?建立模型并使之可行具有许多挑战。对于当今的数据科学家来说,这可能是最大的技术挑战。

您可以建立世界上最漂亮的模型。但是,您的最高管理层真的会真正在意这是否会对公司的利润产生影响吗?您可能认为您的这部分交易只是为了让数据可用。但事实并非如此。您必须确保实际使用您的数据,获得主管的支持对此很有帮助。

因此,机器学习并不是很容易。但这可以成就大事。

解决技能差距,管理数据并对其进行运作是尝试机器学习技术需要解决的挑战,但可以解决,且结果往往是令人惊喜的。

(由怡海软件http://www.frensworkz.com/编译自:Sherry Tiao,转载请注明出处)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
330 2
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【机器学习】揭秘!机器学习如何助力我们高效优化文本?
【机器学习】揭秘!机器学习如何助力我们高效优化文本?
95 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
65 2
|
4月前
|
机器学习/深度学习 算法 自动驾驶
揭秘机器学习模型的决策之道
【8月更文挑战第22天】本文将深入浅出地探讨机器学习模型如何从数据中学习并做出预测。我们将一起探索模型背后的数学原理,了解它们是如何被训练以及如何对新数据进行预测的。文章旨在为初学者提供一个清晰的机器学习过程概述,并启发读者思考如何在自己的项目中应用这些技术。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
机器学习在金融领域的应用及其挑战
【8月更文挑战第18天】本文将探讨机器学习技术在金融行业中的运用,以及在实际应用过程中遇到的挑战和问题。我们将从算法选择、数据处理、模型解释性及伦理法规四个方面进行详细讨论,并给出相应的解决建议。
90 1
|
5月前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融领域的应用及其挑战
本文深入探讨了机器学习技术在金融领域的广泛应用,包括风险评估、算法交易和客户服务优化等方面。文章首先概述了机器学习的基本概念和主要技术,随后分析了其在金融领域中的应用实例和带来的显著优势。接着,讨论了实施机器学习过程中面临的主要挑战,如数据质量、模型解释性和监管合规性问题。最后,提出了一系列应对策略,旨在帮助金融机构有效利用机器学习技术,同时规避潜在风险。通过实证分析和案例研究,本文旨在为金融从业者提供实用的指导和见解,促进机器学习技术在金融领域的健康发展。
|
7月前
|
机器学习/深度学习 传感器 人工智能
【机器学习】 人工智能和机器学习辅助决策在空战中的未来选择
【机器学习】 人工智能和机器学习辅助决策在空战中的未来选择
|
6月前
|
机器学习/深度学习 算法 大数据
【机器学习】集成学习:强化机器学习模型与创新能的利器
【机器学习】集成学习:强化机器学习模型与创新能的利器
98 0
|
6月前
|
机器学习/深度学习 算法
探索机器学习中的优化技术
优化是机器学习的核心环节,决定了模型的性能和应用效果。本文详细探讨了几种常见的优化算法,包括梯度下降、随机梯度下降和自适应优化方法。通过实际案例分析,展示了不同优化算法在处理数据集时的表现差异,以及如何根据具体需求选择合适的优化策略。
97 0
|
机器学习/深度学习 算法 安全
机器学习——实践
机器学习——实践
130 0