数据蒋堂 | 人工智能中的“人工”

简介:

自从AlphaGo赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有着大量的“人工”,还有相当多不能自动化的事情。

这里的"人工"主要体现在两个方面:

1. 数据准备

现代的人工智能技术,或者说机器学习,其基本方法和N多年前的数据挖掘并没有什么太大的不同,也还是将大量数据喂给计算机用于训练模型,模型生成之后就可以用于自动化处理,看起来就像有了智能。

然而,用于实际业务的机器学习项目,并不像AlphaGo那样可以自己生成数据来训练(其实AlphaGo的前期版本也用了大量现存的棋谱),必须使用实际发生过的数据才能训练模型。不同的数据训练出来的模型完全不同,数据的质量严重影响模型的效果。

但是,实际的数据五花八门,散落在各个应用系统中。想把它们整理出来供算法使用,并不是一件容易的事。机器学习需要的常常是比较规整的宽表数据,这还需要把各个应用系统中的关联数据拼接到一起;而各系统的数据编码规则可能不一样,这还需要先统一化;有些数据还是原始的文本(日志)形式,还需要事先从中抽取出结构化的信息;更不要说还有从互联网上扒出来的数据。

有经验的程序员都知道,一个数据挖掘项目中,用于数据准备的时间大约会占到70%-80%,也就是说,绝大多数工作量都花在训练模型之前。

这其实就是我们常说的ETL工作了,这些事看起来没什么技术含量,似乎是个程序员就能做,人们也就不很关心,但成本却高得要命。

2. 数据科学家

ETL整理好的数据,也仍然不是那么好用的。还需要数据科学家来进行进一步处理才能进入建模环节。比如有些数据有缺失的,那么需要有某种办法来补缺;数据的偏度太大,而很多统计学方法要假定数据分布要尽量满足正态分布,这就需要先做一遍纠偏;还需要根据业务情况生成衍生变量(比如从日期生成星期、节假日等)。这些工作虽然也是建模前准备工作,但需要较专业的统计学知识,我们一般不把它算作为ETL的范围。

机器学习的建模算法有好几十种,各种算法都有各自的适用范围,还有大量的参数需要调节。如果用错了模型或调错了参数,那就会得到非常不智能的结果了。这时候又需要数据科学家们不断地尝试,计算并考察数据特征,选用合理的模型和参数,根据结果再反复迭代,经常较漫长的时间才能建一个实用的模型出来,短则二三周、长则二三月。

不过,近年来也出现一些完全自动迭代的手段(主要是神经网络),但计算时间很长,而且在许多领域(如金融风控)的效果并不太好,更有效的仍然是由数据科学家主导的方案,然而数据科学家们又少又贵。

是不是觉得现在的技术还有点low?人工智能的背后原来一点也不智能!



原文发布时间为:2018-04-19

本文作者:蒋步星

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
2月前
|
人工智能 安全
人工智能与“人工”之间如何平衡
【8月更文挑战第12天】2024年见证了人工智能的迅猛发展,它以前所未有的速度融入日常生活,引发了关于其与人力工作关系的广泛讨论。AI虽提升了效率与便利,但也引发了对未来职业安全的担忧。在诸如文本编辑、新闻及短视频制作等行业,AI显著提高了生产效率。然而,人类独特的情感智慧与创新能力仍是AI难以触及的领域。因此,AI更可能成为助手而非完全取代者。面对这一变革,我们应积极学习相关技能,与AI共同进步,创造更大的社会价值。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
163 0
|
4月前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能 or 人工“智能”
人工智能 or 人工“智能”