一起步入人工智能,了解机器学习,学习AI算法【硬货】

简介: 构造复杂的、拥有与人类智慧同样本质特性的机器。


了解人工智能、机器学习,学习AI算法,欢迎大家沟通交流

目录

定义

机器学习

定义
构造复杂的、拥有与人类智慧同样本质特性的机器。

机器学习
一种实现人工智能的方式。机器学习最基本的做法是使用算法解析数据从中学习,然后对真实世界中的事件进行预测和决策。与传统的特定任务、硬编码的软件程序不同,机器学习是用大量的数据来训练,通过各种算法从数据中学习如何完成任务。

经验+思维=规律

数据+算法=模型

数据量决定了模型的高度,算法只是逼近这个高度

大数据是机器学习的根基

大数据是对历史的总结、机器学习是对未来的展望

线性回归(回归算法)
在空间中找到一条合适的直线。

什么是合适的直线:

距离空间中的点误差小。
可以代表空间中的数据规律。

梯度下降法:优化误差函数(损失函数),调整w参数。

贝叶斯(分类算法)
逆概

条件概率

公示:p(A|B)=P(A)*P(B|A)/P(B)

适用简单分类

KNN(分类算法)
KNN思想:如果一个样本在特征空间中的K个最相似的样本中的大多数属于一个类别,则该样本也属于这个类别。k值不同,预测的结果也可能不同。

距离测度的几种方法:

欧式距离:两点直线距离。
平方欧氏距离
曼哈顿距离:没有斜线
余弦距离:一般用来计算文本相似度
闵可夫斯距离:对一组距离的定义
归一化问题:

    如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)数据归一化将所有数据映射到统一尺度
AI 代码解读

适用多分类

Kmeans(聚类算法)
聚类算法是一种无监督的机器学习任务,无监督是一种对不含标记的数据建立模型的机器学习范式,可以自动将数据划分,因此聚类分组不需要提前被告知所划分的组应该是什么样的。我们甚至不知道我们在寻找什么,所以聚类是用于只是发现而不是预测。

聚类流程(不断迭代):

随机找到k个样本(中心点)
计算空间中所有样本与k个样本的距离
统计每一个样本与k个样本距离的大小,距离哪个k样本最近,那么属于哪一类
每个组中重新计算一个新的中心点,中心点可能为虚拟的点
再次计算空间中所有样本与这个k中心点的距离
再次重新分类
依次迭代,直到中心点坐标不再改变或指定迭代次数
问题一:如果随机中心点比较集中,导致聚类效果差,迭代次数高

解决:

Kmeans++ 算法,Kmeans升级版,在第一步选中心点优化。首先找第一个中心点差c1,依次找距离前面中心点远的中心点。

    a.从输入的数据点集合中随机选择一个点作为第一个聚类中心

    b.对于数据集中的每一个点x,计算它与最近聚类中心的距离D(x)

    c.选择一个新的数据点作为新的中心点,选择的原则是:D(x)较大的点被选取作为聚类中心的概率较大

    d.重复复b和c直到k类聚类中心被选出

    e.利用这k个出事的聚类中心运行标准的k-means算法
AI 代码解读

问题二:k值怎么选择?选几个?

聚类效果好不好?衡量标准:类与类之间的差异大,但是类内部相似度很高

解决:

肘部法

逻辑回归(分类算法)

线性回归VS逻辑回归

决策树(分类算法)&随机森林

纯粹度用信息熵表示

总结:决策树有监督的非线性分类,通过树来分类,根据历史数据对已知的分类结果以及分类条件进行计算达到最有效、最纯粹的分类。计算流程:

    1. 计算各个分类结果的信息熵(纯粹度)=-(分类结果1占比*log分类结果1占比+分类结果n占比*log分类结果n占比)。

    2.计算各个分类条件的条件熵=-(分类结果1/分类条件1)+(分类结果n/分类条件1)*分类条件1占比-(分类结果1/分类条件n)+(分类结果n/分类条件n)*分类条件n占比。

    3.获得信息增益(信息熵-条件熵),信息增益最大先进行分类。

    4.为了防止过拟合问题(比如用id作为条件分类),可以使用信息增益率(信息增益/信息熵)来进行分类。

    5.信息增益率也会出现过拟合问题,这个时候需要进行剪枝操作:

    (1)预剪枝:指定树的高度、信息增益等指标,达到指标后不在进行分类

    (2)后剪枝:树已构建出,对已有的树进行剪枝。通过对比剪枝前与剪枝后(某个节点的叶子节点)的误差决定是否剪枝,剪枝前误差<剪枝后的误差需要剪枝。误差函数:信息熵*该节点样本数+叶子节点个数。
AI 代码解读

决策树缺点:

    1.运算量大,需要一次性加载所有的数据到内存。并且寻找分割条件极耗资源。

    2.抗干扰能力差,训练数据样本出现异常数据会产生很大影响。
AI 代码解读

随机森林

随机森林=分布式决策树。解决运算量大、抗干扰能力差。

相关文章
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
123 3
普通人怎么学人工智能?这些隐藏学习秘籍大揭秘,生成式人工智能认证(GAI认证)来助力
在人工智能(AI)快速发展的今天,普通人学习AI已成为必然趋势。本文从明确学习目标与路径、利用多元化资源、注重实践应用、关注GAI认证及持续自我提升五个方面,为普通人提供系统化的AI学习指南。通过设定目标、学习编程语言、参与项目实践和获取专业认证,普通人可逐步掌握AI技能,在未来职场中占据优势并开启智能时代新篇章。
深度:善用人工智能推动高等教育学习、教学与治理的深层变革
本文探讨人工智能技术与高等教育深度融合带来的系统性变革,从学习进化、教学革新与治理重构三个维度展开。生成式AI作为技术前沿代表,正通过标准化认证体系(如培生的Generative AI Foundations)提升职场人士、教育者及学生的能力。文章强调批判性思维、高阶认知能力与社交能力的培养,主张教师从经验主导转向数据驱动的教学模式,并提出构建分布式治理结构以适应技术迭代,最终实现人机协同的教育新生态,推动高等教育在智能时代焕发人性光辉。
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
50 18
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
为什么要学习数据结构与算法
今天,我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心,更是每一位开发者从“小白”迈向“高手”的必经之路。
为什么要学习数据结构与算法
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
86 6
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
103 5
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
132 4
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
174 29

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等