2024年机器学习入门,2024年最新字节跳动视频面试一般多久会收到结果

简介: 2024年机器学习入门,2024年最新字节跳动视频面试一般多久会收到结果


  1. 人工智能发展必备三要素

数据、算法、计算力

逐层、分布、并行算法能力提升

GPU、FPGA、TPU能力大幅度提升

  1. 扩展: GPU与CPU对比

CPU – IO密集型

GPU – 计算密集型

Q:什么类型的程序适合在GPU上运行

A:计算密集型的程序。所谓计算密集型的程序,就是其大部分运行时间花在了寄存器上运算的,寄存器的速度和处理器的速度相当,从寄存器读写数据几乎没有延时,可以做一下对比,读内存的延迟大概是几百个时钟周期,读硬盘速度就不说了,即便是SSD,也实在是太慢了

易于并行的程序。GPU其实是做一种SIMD架构,他有成百上千个核,每一个核在同一时间最好能做同样的事情。

1.3 机器学习工作流程


  1. 什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

  1. 机器学习工作流程:

获取数据

数据基本处理

特征工程

机器学习(模型训练)

模型评估

  1. 获取到的数据集介绍

数据简介

  1. 在数据集中一般:

一行数据我们称为一个样本

一列数据我们成为一个特征

有些数据有目标值(标签值),有些数据没有目标值

  1. 数据类型构成:

数据类型一: 特征值 + 目标值(目标值是连续的和离散的)

数据类型二: 只有特征值,没有目标值

  1. 数据分割:

机器学习一般的数据集会划分为两个部分:

训练数据: 用于训练,构建模型

测试数据: 在模型检验时使用,用于评估模型是否有效

  1. 划分比例:

训练集: 70% 80% 75%

测试集: 30% 20% 25%

  1. 数据基本处理

即对数进行缺失值、去除异常值等处理

  1. 特征工程

特征工程:

把数据转换成机器更容易识别的数据

(特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。)

为什么需要特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程包含内容

特征提取:

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

特征预处理:

通过一些转换函数将特征数据转成更加适合算法模型的特征数据的过程

特征降维:

指在某些限定条件下,降低随机变量(特征)个数,得到一组"不相关" 主变量的过程

  1. 机器学习

选择合适的算法对模型进行训练

  1. 模型评估

对训练好的模型进行评估

1.4完整机器学习流程


  1. 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的特征工程和模型训练通常都是一件非常耗时的过程,胡乱尝试时间成本是非常高的。

这里的抽象成数学问题,指的明确我们可以获得怎样的数据,抽象出的问题,是一个分类还是回归或者聚类的问题。

  1. 获取数据

数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限

数据要有代表性,否则必然会过拟合

对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。

而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断训练过程中内存是否能够放得下,如果放不下就得考虑改进算法或者使用一些降维的技巧了,如果数据量实在是太大,那就要考虑分布式了。

  1. 特征工程

特征工程是非常能体现一个机器学习者的功底的。

特征工程包括从原始数据中特征构建、特征提取、特征选择,非常有讲究。深入理解实际业务场景下的问题,丰富的机器学习经验能帮助我们更好的处理特征工程。特征工程做的好能发挥原始数据的最大效力,往往能够使得算法的效果和性能得到显著的提升,有时能使简单的模型的效果比复杂的模型效果好。

数据预处理、数据清洗是很关键的步骤,往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等,数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制,收益稳定可预期,是机器学习的基础必备步骤。

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
30 2
|
19天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
26 1
|
25天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
30天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
20 1
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型选择与训练、模型评估及交叉验证等关键步骤。通过本文,初学者可以快速上手并掌握机器学习的基本技能。
50 2
|
1月前
|
机器学习/深度学习 人工智能 数据挖掘
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第6天】在人工智能领域,机器学习已成为核心技术。本文指导初学者使用Python与Scikit-learn入门机器学习,涵盖基本概念、环境搭建、数据处理、模型训练及评估等环节。Python因简洁性及其生态系统成为首选语言,而Scikit-learn则提供了丰富工具,简化数据挖掘与分析流程。通过实践示例,帮助读者快速掌握基础知识,为进一步深入研究奠定坚实基础。
27 4
|
1月前
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
417 1
|
1月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法
|
1月前
|
机器学习/深度学习 算法
机器学习入门(三):K近邻算法原理 | KNN算法原理
机器学习入门(三):K近邻算法原理 | KNN算法原理

热门文章

最新文章