《实用机器学习》——第1章 引论

简介:

本节书摘来异步社区《实用机器学习》一书中的第1章,作者:孙亮,黄倩,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章 引论

实用机器学习
随着计算机和互联网越来越深入到生活中的方方面面,人们搜集到的数据也呈指数级的增长。在这种情况下,大数据(big data)应运而生。大数据通常体量特别大,而且数据比较复杂,使得无法直接使用传统的数据库工具对其进行存储和管理。大数据带来了很多挑战,如数据的搜集、整理、存储、共享、分析和可视化等。广义的大数据处理涵盖了上述所有领域;狭义的大数据更多是指如何使用机器学习来分析大数据,从海量的数据中分析出有用的信息。

大数据分析的核心是机器学习算法。很多时候,我们有足够的数据,但是对如何利用这些数据缺乏理解。同时,实际问题往往比较复杂,并不能直接套用机器学习算法,我们需要对实际问题进行一些转化,使得机器学习算法可以应用。虽然实际问题表现形式各异,但是在将它们转化为机器学习能够处理的问题时,一般转化为如下4类问题:(1)回归问题;(2)分类问题;(3)推荐问题;(4)排序问题。这4类问题是实际应用中最主要的类型,覆盖了大部分实际问题。在1.3节,我们将详细介绍每类问题的具体例子。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
机器学习/深度学习 数据采集 人工智能
机器学习概论
机器学习概论
|
机器学习/深度学习 存储 算法
入坑机器学习:三,非监督学习
不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能从数据中找到某种结构吗?针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
126 0
入坑机器学习:三,非监督学习
|
机器学习/深度学习 存储 传感器
入坑机器学习:二,监督学习
第三个问题是输入空间的维数。如果输入特征向量具有非常高的维数,学习问题是很困难的,即使真函数仅依赖于一个小数目的那些特征。这是因为许多“额外”的尺寸可混淆的学习算法,并使其具有高方差。因此,高的输入维数通常需要调整分类器具有低方差和高偏置。在实践中,如果工程师能够从输入数据手动删除不相关的特征,这是有可能改善该学习功能的准确性。此外,还有许多算法的特征选择,设法确定相关特征,并丢弃不相关的。这是维数降低,其目的是将输入数据映射到较低维空间中运行的监督学习算法之前的更一般的策略的一个实例。
119 0
入坑机器学习:二,监督学习
|
机器学习/深度学习 安全 数据可视化
机器学习攻防|深度学习(李宏毅)(十二)
机器学习攻防|深度学习(李宏毅)(十二)
314 0
机器学习攻防|深度学习(李宏毅)(十二)
|
机器学习/深度学习 人工智能 算法
机器学习(十四) 机器学习比赛网站
机器学习(十四) 机器学习比赛网站
112 0
|
机器学习/深度学习 人工智能 自然语言处理
五个给机器学习和数据科学入门者的学习建议
我从没写过代码。 当人们发现我的作品,他们通常会私信并提问。我不一定知道所有的答案,但我会尽量回复。人们最常问的问题是:「该从哪开始?」,其次是:「我需要多少数学基础?」
98 0
|
机器学习/深度学习 文字识别 算法
机器学习,你不得不掌握的十大算法(下)
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。
90 0
机器学习,你不得不掌握的十大算法(下)
|
机器学习/深度学习 Python 算法
干货 | 五个给机器学习和数据科学入门者的学习建议
「我想学习机器学习和人工智能,该从哪开始呢?」 从这里开始。
2958 0
干货 | 五个给机器学习和数据科学入门者的学习建议
|
机器学习/深度学习 算法 数据挖掘
白话机器学习
机器学习是什么 一段程序可以看作一连串从输入到输出的过程,无论是工程师还是程序员,我们都想通过设计来完成某种功能。以做一个网页为例,要画视觉图、UI 图,以及前端后端交互图等,我们要给计算机设计一套解决具体问题的流程。
1578 0
|
机器学习/深度学习 算法
吴恩达《机器学习》课程总结(11)机器学习系统的设计
11.1首先要做什么 本章将在随后的课程中讲误差分析,然后怎样用一个更加系统性非方法,从一堆不同的方法中,选取合适的那一个。 11.2误差分析 构建一个学习算法的推荐方法为: (1)从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法; (2)绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择; (3)进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。
1368 0

热门文章

最新文章