机器学习的挑战:在开始之前需要知道什么

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 机器学习的回报是众所周知的,它可能会让您想现在就开始。然而,与此同时,在开始自己的项目之前,您应该考虑一下机器学习的挑战。 这篇文章并不是要吓跑您,相反,这样做是为了确保您做好了准备,并在开始之前仔细考虑所需注意的事项。

机器学习的回报是众所周知的,它可能会让您想现在就开始。然而,与此同时,在开始自己的项目之前,您应该考虑一下机器学习的挑战。

这篇文章并不是要吓跑您,相反,这样做是为了确保您做好了准备,并在开始之前仔细考虑所需注意的事项。

本文据数据科学家Brian MacDonald访谈,他谈到了他所看到的陷阱,以及公司可以采取哪些措施来避免这些陷阱。

这些机器学习的挑战包括:
• 解决技能差距
• 知道如何管理您的数据
• 数据运

1. 解决机器学习技能的差距
当然,最大的困难是在大数据环境中使用机器学习的技能差距。有一群人认为大数据让生活更美好,而且很容易上手。

您将发现最大的挑战是找到合适的人。机器学习的人才需求量很大,可供选择的人才很少。但获得高管的支持是实现这一目标的关键。如果您有高层管理人员的支持,那么您还将获得寻找和招募这些宝贵人才的资金。

这是要考虑的事情:如果您处于一种由于经验丰富的数据科学家很昂贵而对成本非常敏感的情况,那么你可能没有足够大的商业问题来让机器学习变得值得去做。

假设一位经验丰富的数据科学家要花费您公司3-40万美元(包括所有的福利和奖励)。如果该人不能帮助您解决每年至少价值一百万美元的问题,那么您可能不需要他。对吗?

另一方面,如果您真的相信这个人(或团队)可以帮助您解决数千万的问题,那么您还在等什么呢?

很难找到人。但如果这对您的公司真的很重要,您可以找到他们。

这里还有一个需要考虑的问题:工具和软件。当然,有一些工具会有所帮助,但您很难立即找到您需要的:准确的、完美的、开箱即用的机器学习工具。您必须考虑将要使用的工具。

Python, R, SQL, TensorFlow…如果您使用它们,它们将如何与您的数据湖一起工作?您将如何处理可能带来挑战的设置和配置?开始之前请仔细考虑所有细节,并确保您有足够的资金。

2.知道如何管理大数据
机器学习是一个混乱的过程。仅仅拥有一个大数据平台并不意味着它会变得更容易。事实上,这可能会使它变得更混乱,因为您将拥有更多的数据。这些数据使您能够做更多的工作,但这也意味着必须完成更多的数据准备工作。

你必须全盘考虑如何处理这个问题。以下是一些需要思考的问题:
• 您的数据来自哪里?
• 您打算怎样处理这个问题?
• 您希望如何处理数据准备工作?
• 完成后,您将如何构建模型并实现所有操作?

如果您还没有一个好的BI实践或分析实践,如果您还没有以您能想到的所有方式使用数据,那么跳到机器学习将是一个真正的挑战。已经有数据驱动的决策绝对至关重要。如果您还没有,我们建议您在开始机器学习之前就做好了准备。

如果您决定开始,那么这里还有其他一些注意事项。在开始之前,请仔细考虑它们:
快速变化:在机器学习的世界里,创新来的很快,这意味着快速的变化。今天的好东西明天可能就不那么好了,而且你不能总是依赖软件,因为它是一个更不稳定的空间。不同的版本和冲突可能会带来更多的问题。
庞大的数据量:借助机器学习,您将不得不处理大量数据以及许多不同类型的数据。了解您是否使用所有这些信息,过程,是否采样等都是挑战,尤其是当您深入了解数据并处理数据移动时。

确保您已准备好应对挑战,并制定了计划。

3.大数据的运作
大多数数据科学家面临的最大问题是什么?是数据的运作。

假设您已经建立了一个模型,它可以预测导致客户流失的因素。您如何把这个模型推广给那些能影响这些数字的人?您如何将其导入CRM系统或移动应用?

如果您拥有可以预测设备故障的模型,那么如何及时将其告知操作员以防止发生故障?建立模型并使之可行具有许多挑战。对于当今的数据科学家来说,这可能是最大的技术挑战。

您可以建立世界上最漂亮的模型。但是,您的最高管理层真的会真正在意这是否会对公司的利润产生影响吗?您可能认为您的这部分交易只是为了让数据可用。但事实并非如此。您必须确保实际使用您的数据,获得主管的支持对此很有帮助。

因此,机器学习并不是很容易。但这可以成就大事。

解决技能差距,管理数据并对其进行运作是尝试机器学习技术需要解决的挑战,但可以解决,且结果往往是令人惊喜的。

(由怡海软件http://www.frensworkz.com/编译自:Sherry Tiao,转载请注明出处)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
27天前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
232 14
|
5月前
|
SQL JavaScript Unix
在线时间戳转换工具
免费在线时间戳转换工具,实时精准实现Unix时间戳与日期格式互转!
216 8
|
12月前
|
运维 监控 数据挖掘
交换机镜像之MAC镜像,有哪些分类?
【10月更文挑战第2天】
177 1
交换机镜像之MAC镜像,有哪些分类?
|
7月前
|
机器学习/深度学习 人工智能 运维
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
286 14
|
7月前
|
机器学习/深度学习 数据采集 算法
基于yolov2和googlenet网络的疲劳驾驶检测算法matlab仿真
本内容展示了基于深度学习的疲劳驾驶检测算法,包括算法运行效果预览(无水印)、Matlab 2022a 软件版本说明、部分核心程序(完整版含中文注释与操作视频)。理论部分详细阐述了疲劳检测原理,通过对比疲劳与正常状态下的特征差异,结合深度学习模型提取驾驶员面部特征变化。具体流程包括数据收集、预处理、模型训练与评估,使用数学公式描述损失函数和推理过程。课题基于 YOLOv2 和 GoogleNet,先用 YOLOv2 定位驾驶员面部区域,再由 GoogleNet 分析特征判断疲劳状态,提供高准确率与鲁棒性的检测方法。
|
10月前
|
人工智能 算法
AI+脱口秀,笑点能靠算法创造吗
脱口秀是一种通过幽默诙谐的语言、夸张的表情与动作引发观众笑声的表演艺术。每位演员独具风格,内容涵盖个人情感、家庭琐事及社会热点。尽管我尝试用AI生成脱口秀段子,但AI缺乏真实的情感共鸣和即兴创作能力,生成的内容显得不够自然生动,难以触及人心深处的笑点。例如,AI生成的段子虽然流畅,却少了那份不期而遇的惊喜和激情,无法真正打动观众。 简介:脱口秀是通过幽默语言和夸张表演引发笑声的艺术形式,AI生成的段子虽流畅但缺乏情感共鸣和即兴创作力,难以达到真人表演的效果。
|
11月前
|
IDE Java Maven
如何解决类路径问题
类路径问题通常出现在Java等编程语言中,解决方法包括:确保文件路径正确、使用相对路径、检查环境变量配置、利用构建工具(如Maven)管理依赖、清理和重新构建项目。
480 13
|
11月前
|
存储 负载均衡 云计算
抖音服务器是什么样的
抖音服务器采用分布式云计算架构,遍布全国多个数据中心,如北上广、四川和贵州等地,利用高带宽、云集群并发及OSS、CDN、SLB等技术,确保大量用户同时流畅观看视频。这不仅需要强大的服务器群支持,还需精准的负载均衡与内容分发网络,保障用户体验。
478 1
|
11月前
|
JSON API 数据格式
Amazon商品详情API,json数据格式示例参考
亚马逊商品详情API接口返回的JSON数据格式通常包含丰富的商品信息,以下是一个简化的JSON数据格式示例参考
|
12月前
|
搜索推荐 前端开发 数据安全/隐私保护
改善用户体验方法
【10月更文挑战第9天】改善用户体验方法
760 3