了解人工智能之分类和预测 - 数据科学中的预测,分类和回归分析

简介: 本文作者阐述了她对机器学习在数据分析学科方面的应用现状和展望。给了初涉这个领域的人们一个初步的介绍

上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习。也概述了当前人工智能背后的基本原理提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例。那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向。


总的来说,我们可以从两个方面来利用当前的人工智能系统:


完成更出色的数据科学工作

我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作。但是在有了机器学习系统以后,我们可以做得更好出色:

  • 预测根据过去的数据预测未来的情况,如天气预报或股市分析。
  • 分类:区分照片中的是一匹斑马还是一匹普通的马; 文章的叙述是正面性的还是负面性。
  • 回归分析:分析照片中人物的年龄; 汽车预期的燃油效率等等。

实现真正的人工智能

机器学习系统还可以完成那些早期计算机系统不能胜任的工作,从这点来看它们也更接近真正的非人类智能:

  • 创造性工作:在学习了大量样本之后创造出新的事物。
  • 持续学习:通过不断地试错,学习完成一些复杂的任务。比如,玩游戏。

随着人工智能慢慢从小说情节变成现实生活,上面第一个方面的能力让人感觉更触手可及,而第二个方面则还像是科幻小说中的情节。 这里我主要讨论关于数据科学的内容,这个系列的第三篇我会围绕创造性工作和持续学习来展开。


预测未来

从历史数据推广到未来的情况,我们也称之为预测。任何大型的组织或机构都离不开这方面的工作:例如“鉴于去年的情况,明年我们的业绩会怎样?”。通常来说简单的预测模型可能只涉及几个因素。比如,通过历史上同一时间的某地气温来推测现在的温度。 而更复杂的模型则会涉及更多的参数,有时甚至会超出人类的计算能力。

我们可以用统计学,机器学习和神经网络这三种不同的方法来处理不同的问题:

  • 如果我们要解决类似根据历史数据预测产品的最佳价格这类的常规业务问题,那就可以遵循传统的财务或统计模型。
  • 如果我们手头有很多参考因素,但又不知道如何把它们运用于预测工作,那么就可以参考机器学习的解决方案,从而找到最适合的模型。 这种问题往往属于数据科学的范畴,可以通过复杂的电子表格和编程语言(如R)来解决。
  • 如果我们需要通过一些不太容易理解的数据集进行预测,而这些数据集恰恰又不易转换为简单数值的话,那么神经网络可能会有它的用武之地。

神经网络能够实现与传统统计学方法相同的数学模型。我写了一个可以粗略预测气温的演示示例。神经网络可以被看成一个黑盒,从而让反向工程变得相当困难。相反,使用Excel电子表格的话,其中的模型完全是透明的。两者孰优孰劣就要看实际的应用场景了。

结论:大多数组织机构并不需要人工智能完成日常财务状况的预测工作,这样的预测结果也不容易被验证或审计。 但在许多其他领域,机器学习的方法还是值得一试的。

分类和识别

40年前,人工智能已经被用来对美国邮政的信件进行分类了。 自动手写识别系统通过给定一个字母形式从而选择它所代表的字母。通过光学字符识别系统,人们明确地告诉机器线条组合映与字符的映射关系这在当时属于人工智能的一个例子,但它却不是机器学习。相比之下,当前的神经网络可以在没有人类明确指导的情况下,“自己”学习完成某项任务。

深度学习之所以备受瞩目,是因为你可以将任何分类问题交给它来解决(只要你有足够多的样本来让其进行学习)。在机器学习出现之前,人工智能系统仅限于人类可以枚举的所有特征,例如识别由有限的一组字母,数字和标点符号组成的邮政地址。 随着问题复杂度的增加,人类“导师”本身则成了系统的瓶颈。机器学习让我们摆脱了这个困境。

识别图像

经过训练的深度学习系统可以非常快速地进行分类任务。自动驾驶汽车使用摄像机和其他传感器来识别重要的现实世界对象,比如树木,公共汽车和交通信号灯等。不过,它们还有许多地方需要改进,而这也是自动驾驶汽车还没真正驶上马路的原因之一。 机器学习系统仍然在视觉识别任务方面还有许多难题需要解决,例如如何在任何照明条件下来准确识别物体,这方面人的眼睛可以相对轻松地到达目标。 相反的,如果分类任务要求人类受过非常专业的训练,比如识别肿瘤,深度学习系统可能会做得更出色。毕竟神经网络系统能在较短的时间内完成大量的样本学习,而这对于人类则是不太可能的。

识别语言

除了识别字母之外,机器学习系统还可以在语义层面执行语言分类任务。 通过查看许多标记过的句子,他们可以被训练用来回答问题,“这两个句子是否意味着相同的事情?”,“ 这家餐厅是正面还是负面?

自然语言系统可以有效的对人类语言进行分析。 由于社交媒体的出现,一场文字的海啸正在向我们袭来。也许再好的自然语言系统也比不上人类的语言能力,但是它却能够处理完任意一个社交媒体上所有的文字信息。

总结:深度学习方法特别适用于对复杂的,原始的数据进行分类。 如果经过适当的训练,神经网络可以在图像中发现微妙的模式,这在医学诊断中具有深远的影响。 机器学习也可以应用于理解人类语言,但目前人们还只能把它当成自然语言研究的辅助工具。


回归分析

有时我们的分类问题有可能不是非此即彼的明确判断(正或负”,“是猫还是狗”)。就好比我们在预测天气时,不仅有确切的温度值预测,同样还可能有“晴天”或“多云”的分类判断。这类问题我们就称为回归分析。

和基于时间的预测一样,在回归分析领域,我们已经有了很多现成的算法与技术。大多数情况下,我们并不需要在这个已经很成熟的学科领域使用机器学习系统。我们可以利用神经网络探索那些新的问题领域。

我认为基于神经网络的预测已经不仅仅能处理纯数字数据了。 与之前提到的分类问题一样,深层神经网络可以根据各种人类行为数据进行真实价值的预测,比如基于财务报表分析股票波动。

为了验证我的想法,我用了四万幅名画训练了一个深度学习网络,然后要求它推测出作品的创作年份。平均来说,它推测出的成画年代与真实年代有65年左右的误差。显然人类专家做出的判断会更准确,但比起普通人来说这已经是一个不错的成绩了。

c511e34d5b4498671f6422711f21b0a5397718e3

左边是真实年代,右边是推测的年代。这里有完整的代码,同时这个是项目的笔记,包括了图表和更多的训练样本。

总结:根据在训练中提取出的特征,神经网络可以比传统的统计模型更好地进行回归分析,特别是对那些数据间的相关性并不容易被发现的场景,神经网络便能发挥它的优势。


从科学到小说

随着互联网的发展,我们面临着数据的大爆。海量的文本,视频,音频数据需要进行处理,而这已经远远超出其他技术的能力,不过幸好现在我们有了机器学习这个强大的工具。深层神经网络的作用不仅仅于此,它还有着创造能力,并”学会“与人类在现实世界中进行互动。请参阅这个系列的第三篇:


本文由北邮@爱可可-爱生活老师推荐,@阿里云云栖社区组织翻译。

文章原标题《AI Literacy: How artificial intelligence classifies and predicts our world - Part 2: Better data science with prediction, classification, and regression

作者:Liza Daly  软件工程师,担任过Safari 公司的CTO。涉及的领域包括机器学习,数码艺术和电子读物出版等。

译者:friday_012 审阅:

文章为简译,更为详细的内容,请查看原文



相关文章
|
23天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与体育:运动员表现分析
【10月更文挑战第31天】随着科技的发展,人工智能(AI)在体育领域的应用日益广泛,特别是在运动员表现分析方面。本文探讨了AI在数据收集与处理、数据分析与挖掘、实时反馈与调整等方面的应用,以及其在技术动作、战术策略、体能与心理状态评估中的具体作用。尽管面临数据准确性和隐私保护等挑战,AI仍为体育训练和竞技带来了新的机遇和前景。
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
93 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
50 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
3月前
|
人工智能 自然语言处理 搜索推荐
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
人工智能(AI)、Web 3.0和元宇宙作为当前科技领域的热门话题,它们之间存在着紧密的联系,并在各自领域内展现出广泛的应用和未来的发展趋势。以下是对这三者联系、应用及未来发展趋势的详细分析
69 2
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
|
3月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
71 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
77 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
【AI在金融科技中的应用】详细介绍人工智能在金融分析、风险管理、智能投顾等方面的最新应用和发展趋势
人工智能(AI)在金融领域的应用日益广泛,对金融分析、风险管理和智能投顾等方面产生了深远影响。以下是这些领域的最新应用和发展趋势的详细介绍
431 1
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
66 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】TensorFlow简介,应用场景,使用方法以及项目实践及案例分析,附带源代码
TensorFlow是由Google Brain团队开发的开源机器学习库,广泛用于各种复杂的数学计算,特别是涉及深度学习的计算。它提供了丰富的工具和资源,用于构建和训练机器学习模型。TensorFlow的核心是计算图(Computation Graph),这是一种用于表示计算流程的图结构,由节点(代表操作)和边(代表数据流)组成。
77 0

热门文章

最新文章