一起步入人工智能,了解机器学习,学习AI算法【硬货】

简介: 构造复杂的、拥有与人类智慧同样本质特性的机器。


了解人工智能、机器学习,学习AI算法,欢迎大家沟通交流

目录

定义

机器学习

定义
构造复杂的、拥有与人类智慧同样本质特性的机器。

机器学习
一种实现人工智能的方式。机器学习最基本的做法是使用算法解析数据从中学习,然后对真实世界中的事件进行预测和决策。与传统的特定任务、硬编码的软件程序不同,机器学习是用大量的数据来训练,通过各种算法从数据中学习如何完成任务。

经验+思维=规律

数据+算法=模型

数据量决定了模型的高度,算法只是逼近这个高度

大数据是机器学习的根基

大数据是对历史的总结、机器学习是对未来的展望

线性回归(回归算法)
在空间中找到一条合适的直线。

什么是合适的直线:

距离空间中的点误差小。
可以代表空间中的数据规律。

梯度下降法:优化误差函数(损失函数),调整w参数。

贝叶斯(分类算法)
逆概

条件概率

公示:p(A|B)=P(A)*P(B|A)/P(B)

适用简单分类

KNN(分类算法)
KNN思想:如果一个样本在特征空间中的K个最相似的样本中的大多数属于一个类别,则该样本也属于这个类别。k值不同,预测的结果也可能不同。

距离测度的几种方法:

欧式距离:两点直线距离。
平方欧氏距离
曼哈顿距离:没有斜线
余弦距离:一般用来计算文本相似度
闵可夫斯距离:对一组距离的定义
归一化问题:

    如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)数据归一化将所有数据映射到统一尺度

适用多分类

Kmeans(聚类算法)
聚类算法是一种无监督的机器学习任务,无监督是一种对不含标记的数据建立模型的机器学习范式,可以自动将数据划分,因此聚类分组不需要提前被告知所划分的组应该是什么样的。我们甚至不知道我们在寻找什么,所以聚类是用于只是发现而不是预测。

聚类流程(不断迭代):

随机找到k个样本(中心点)
计算空间中所有样本与k个样本的距离
统计每一个样本与k个样本距离的大小,距离哪个k样本最近,那么属于哪一类
每个组中重新计算一个新的中心点,中心点可能为虚拟的点
再次计算空间中所有样本与这个k中心点的距离
再次重新分类
依次迭代,直到中心点坐标不再改变或指定迭代次数
问题一:如果随机中心点比较集中,导致聚类效果差,迭代次数高

解决:

Kmeans++ 算法,Kmeans升级版,在第一步选中心点优化。首先找第一个中心点差c1,依次找距离前面中心点远的中心点。

    a.从输入的数据点集合中随机选择一个点作为第一个聚类中心

    b.对于数据集中的每一个点x,计算它与最近聚类中心的距离D(x)

    c.选择一个新的数据点作为新的中心点,选择的原则是:D(x)较大的点被选取作为聚类中心的概率较大

    d.重复复b和c直到k类聚类中心被选出

    e.利用这k个出事的聚类中心运行标准的k-means算法

问题二:k值怎么选择?选几个?

聚类效果好不好?衡量标准:类与类之间的差异大,但是类内部相似度很高

解决:

肘部法

逻辑回归(分类算法)

线性回归VS逻辑回归

决策树(分类算法)&随机森林

纯粹度用信息熵表示

总结:决策树有监督的非线性分类,通过树来分类,根据历史数据对已知的分类结果以及分类条件进行计算达到最有效、最纯粹的分类。计算流程:

    1. 计算各个分类结果的信息熵(纯粹度)=-(分类结果1占比*log分类结果1占比+分类结果n占比*log分类结果n占比)。

    2.计算各个分类条件的条件熵=-(分类结果1/分类条件1)+(分类结果n/分类条件1)*分类条件1占比-(分类结果1/分类条件n)+(分类结果n/分类条件n)*分类条件n占比。

    3.获得信息增益(信息熵-条件熵),信息增益最大先进行分类。

    4.为了防止过拟合问题(比如用id作为条件分类),可以使用信息增益率(信息增益/信息熵)来进行分类。

    5.信息增益率也会出现过拟合问题,这个时候需要进行剪枝操作:

    (1)预剪枝:指定树的高度、信息增益等指标,达到指标后不在进行分类

    (2)后剪枝:树已构建出,对已有的树进行剪枝。通过对比剪枝前与剪枝后(某个节点的叶子节点)的误差决定是否剪枝,剪枝前误差<剪枝后的误差需要剪枝。误差函数:信息熵*该节点样本数+叶子节点个数。

决策树缺点:

    1.运算量大,需要一次性加载所有的数据到内存。并且寻找分割条件极耗资源。

    2.抗干扰能力差,训练数据样本出现异常数据会产生很大影响。

随机森林

随机森林=分布式决策树。解决运算量大、抗干扰能力差。

相关文章
|
1天前
|
人工智能 算法 计算机视觉
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
|
28天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
157 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
5天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
50 11
|
9天前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
43 13
|
2月前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
94 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
18天前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
44 14
|
29天前
|
人工智能 自动驾驶 机器人
AI元年:2024年人工智能发展大事纪
3分钟了解2024年人工智能AI领域都发生了哪些改变我们生活和生产方式的大事儿。
160 2
AI元年:2024年人工智能发展大事纪
|
29天前
|
人工智能 自然语言处理 算法
打破AI信息差:2024年20款好用的人工智能工具大盘点
本文带你了解20款值得一试的AI工具,帮助你在内容创作、图像设计、音频视频编辑等领域提高效率、激发创意。
218 1
打破AI信息差:2024年20款好用的人工智能工具大盘点
|
15天前
|
机器学习/深度学习 存储 人工智能
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
|
2月前
|
机器学习/深度学习 传感器 人工智能
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
96 27