2024年机器学习入门,2024年最新字节跳动视频面试一般多久会收到结果

简介: 2024年机器学习入门,2024年最新字节跳动视频面试一般多久会收到结果


  1. 人工智能发展必备三要素

数据、算法、计算力

逐层、分布、并行算法能力提升

GPU、FPGA、TPU能力大幅度提升

  1. 扩展: GPU与CPU对比

CPU – IO密集型

GPU – 计算密集型

Q:什么类型的程序适合在GPU上运行

A:计算密集型的程序。所谓计算密集型的程序,就是其大部分运行时间花在了寄存器上运算的,寄存器的速度和处理器的速度相当,从寄存器读写数据几乎没有延时,可以做一下对比,读内存的延迟大概是几百个时钟周期,读硬盘速度就不说了,即便是SSD,也实在是太慢了

易于并行的程序。GPU其实是做一种SIMD架构,他有成百上千个核,每一个核在同一时间最好能做同样的事情。

1.3 机器学习工作流程


  1. 什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

  1. 机器学习工作流程:

获取数据

数据基本处理

特征工程

机器学习(模型训练)

模型评估

  1. 获取到的数据集介绍

数据简介

  1. 在数据集中一般:

一行数据我们称为一个样本

一列数据我们成为一个特征

有些数据有目标值(标签值),有些数据没有目标值

  1. 数据类型构成:

数据类型一: 特征值 + 目标值(目标值是连续的和离散的)

数据类型二: 只有特征值,没有目标值

  1. 数据分割:

机器学习一般的数据集会划分为两个部分:

训练数据: 用于训练,构建模型

测试数据: 在模型检验时使用,用于评估模型是否有效

  1. 划分比例:

训练集: 70% 80% 75%

测试集: 30% 20% 25%

  1. 数据基本处理

即对数进行缺失值、去除异常值等处理

  1. 特征工程

特征工程:

把数据转换成机器更容易识别的数据

(特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。)

为什么需要特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程包含内容

特征提取:

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

特征预处理:

通过一些转换函数将特征数据转成更加适合算法模型的特征数据的过程

特征降维:

指在某些限定条件下,降低随机变量(特征)个数,得到一组"不相关" 主变量的过程

  1. 机器学习

选择合适的算法对模型进行训练

  1. 模型评估

对训练好的模型进行评估

1.4完整机器学习流程


  1. 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的特征工程和模型训练通常都是一件非常耗时的过程,胡乱尝试时间成本是非常高的。

这里的抽象成数学问题,指的明确我们可以获得怎样的数据,抽象出的问题,是一个分类还是回归或者聚类的问题。

  1. 获取数据

数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限

数据要有代表性,否则必然会过拟合

对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。

而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断训练过程中内存是否能够放得下,如果放不下就得考虑改进算法或者使用一些降维的技巧了,如果数据量实在是太大,那就要考虑分布式了。

  1. 特征工程

特征工程是非常能体现一个机器学习者的功底的。

特征工程包括从原始数据中特征构建、特征提取、特征选择,非常有讲究。深入理解实际业务场景下的问题,丰富的机器学习经验能帮助我们更好的处理特征工程。特征工程做的好能发挥原始数据的最大效力,往往能够使得算法的效果和性能得到显著的提升,有时能使简单的模型的效果比复杂的模型效果好。

数据预处理、数据清洗是很关键的步骤,往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等,数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制,收益稳定可预期,是机器学习的基础必备步骤。

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
7天前
|
机器学习/深度学习 数据采集 算法
机器学习入门的基础知识和步骤
机器学习入门的基础知识和步骤
16 1
|
11天前
|
机器学习/深度学习 数据采集 算法
机器学习入门:算法与数据的探索之旅
【6月更文挑战第13天】本文介绍了机器学习的基础,包括算法和数据处理的重要性。机器学习算法分为监督学习(如线性回归、决策树)、非监督学习(如聚类、降维)和强化学习。数据处理涉及数据清洗、特征工程、数据分割及标准化,是保证模型性能的关键。对于初学者,建议学习基础数学、动手实践、阅读经典资料和参与在线课程与社区讨论。
|
15天前
|
机器学习/深度学习 数据采集 算法
探索Scikit-learn:机器学习库的入门与进阶
本文介绍了Scikit-learn,一个基于Python的开源机器学习库,它依赖于NumPy、SciPy和Matplotlib。Scikit-learn提供分类、回归、聚类和降维等算法,具有简单易用的API。文章涵盖了Scikit-learn的安装、基础使用,例如线性回归示例,并讨论了其主要功能,如数据预处理、模型评估、分类和回归算法、聚类和降维。此外,还涉及进阶应用,如集成学习(随机森林、AdaBoost等)和模型选择工具(交叉验证、网格搜索),帮助用户优化模型性能。总之,Scikit-learn是数据科学家在处理复杂问题时的强大工具。【6月更文挑战第7天】
20 7
|
12天前
|
机器学习/深度学习 数据采集 算法
机器学习入门:scikit-learn库详解与实战
本文是面向初学者的scikit-learn机器学习指南,介绍了机器学习基础知识,包括监督和无监督学习,并详细讲解了如何使用scikit-learn进行数据预处理、线性回归、逻辑回归、K-means聚类等实战操作。文章还涵盖了模型评估与选择,强调实践对于掌握机器学习的重要性。通过本文,读者将学会使用scikit-learn进行基本的机器学习任务。【6月更文挑战第10天】
39 3
|
12天前
|
机器学习/深度学习 数据采集 关系型数据库
机器学习入门:使用Scikit-learn进行实践
机器学习入门:使用Scikit-learn进行实践
261 1
|
12天前
|
机器学习/深度学习 算法 数据挖掘
机器学习新手也能飞:Python+Scikit-learn让你轻松入门!
【6月更文挑战第12天】Python和Scikit-learn降低了机器学习的门槛,让初学者也能轻松涉足。Python以其易用性及丰富的库支持成为机器学习首选语言,而Scikit-learn作为开源机器学习库,提供多种算法和工具。通过简单示例展示了如何使用两者处理鸢尾花数据集进行分类,体现其在实践中的高效便捷。掌握这两者,能助你在机器学习领域不断探索和创新。
|
4天前
|
存储 算法 Java
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
9 0
|
30天前
|
移动开发 缓存 JavaScript
30 道 Vue 面试题,内含详细讲解(涵盖入门到精通,自测 Vue 掌握程度
30 道 Vue 面试题,内含详细讲解(涵盖入门到精通,自测 Vue 掌握程度
24 6
|
4天前
|
机器学习/深度学习 vr&ar 异构计算
【机器学习】Ctrl-Adapter:视频生成领域的革新者
【机器学习】Ctrl-Adapter:视频生成领域的革新者
11 0
|
1天前
|
机器学习/深度学习 人工智能 算法
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集('蜜蜂', '甲虫', '蝴蝶', '蝉', '蜻蜓', '蚱蜢', '蛾', '蝎子', '蜗牛', '蜘蛛')进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一张昆虫图片识别其名称。
30 7
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50