SparkMllib介绍

简介: SparkMllib介绍


  1. SparkMllib介绍
    MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:
    五大特性:

1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法

2-特征化:特征抽取、特征转换、特征选择、特征降维

3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联

4-持久化Persistence:保存模型,保存管道

如何理解保存模型?

原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在本地或hdfs中加载已经训练好点模型,直接可以做预测分析

5-工具:包括线性代数、统计学、数据处理科学

注意:

基于DataFrame是现在主要用的API

Spark ml基于DataFrame的API

Spark mllib基于RDD的API(2.0开始处于维护模式,将被淘汰)

Spark的各种数据结构:

SparkCore-----RDD

SparkSQL-----DataFrame和DataSet

SparkStreaming批处理框架----DFrame(目前Spark官网已经对SparkStreaming停止了更新)

StructedStreming实时流处理------DataFrame和Dataset

SparkMllib机器学习库

为什么SparkMllib需要从rdd转变成dataframe?

1-Dataframe的Api是比较友好的,基于统一的数据源、sql查询、Tungsten 和catalyst优化的各种优势

2-DataFrame提供多种语言的统一的API接口

3-DataFrame可以整合Pipeline完成管道的操作

2. SparkMllib的架构详解

从架构图可以看出MLlib主要包含三个部分:

底层基础:包括Spark的运行库、矩阵库和向量库;

算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;

实用程序:包括测试数据的生成、外部数据的读入等功能。

MLlib算法库的核心内容:

MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。


目录
相关文章
|
机器学习/深度学习 人工智能 算法框架/工具
《YOLOv10魔术师专栏》专栏介绍 & 专栏目录
【7月更文挑战第4天】 【原创自研模块】【多组合点优化】【注意力机制】 【主干篇】【neck优化】【卷积魔改】 【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】 【小目标性能提升】【前沿论文分享】【训练实战篇】
434 1
|
7月前
|
人工智能 自然语言处理 测试技术
掌握这5个要点,选对Embedding模型助力RAG系统
三桥君深入解析RAG系统中的Embedding模型选择问题,探讨其在语义理解与检索中的关键作用,并结合任务需求、资源条件等提供实用选型建议。
1329 0
|
7月前
|
安全 网络架构
对比外部公网IP与局域网内部IP的差异性
综上所述,外部公网IP地址与局域网内部IP地址在功能、应用范围、安全性与管理方式上存在明显的差异性。公网IP地址为网络设备提供了在整个互联网中可识别的唯一身份,而内网IP仅在私有网络中有效,且安全性相对较高。理解这些差异能有助于更好地配合网络地址的规划、管理与安全策略的设计。
540 10
|
7月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
人工智能 数据可视化 开发者
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
1150 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
|
11月前
|
存储 人工智能 API
AppAgentX:告别重复点击!自我进化式GUI代理自动生成高级操作,效率翻倍
AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架,通过记忆和进化机制提升智能手机交互的效率和智能性,支持复杂任务和跨应用操作,显著优于现有方法。
679 0
|
存储 JSON 安全
2024全网最全面及最新的网络安全技巧 二 之 CSRF+XSS漏洞的各类利用技巧
2024全网最全面及最新的网络安全技巧 二 之 CSRF+XSS漏洞的各类利用技巧
|
存储 Oracle 关系型数据库
Oracle数据库优化策略
【10月更文挑战第25天】Oracle数据库优化策略
216 5
|
存储 缓存 负载均衡
高并发系统架构的设计挑战与应对策略
【8月更文挑战第18天】高并发系统架构设计是一项复杂而重要的任务。面对性能瓶颈、稳定性与可靠性、并发控制和可扩展性等挑战,开发人员需要采取一系列有效的策略和技术手段来应对。通过负载均衡、缓存技术、数据库优化、异步处理、并发控制、弹性设计及监控与调优等手段,可以设计出高性能、高可用和高可扩展性的高并发系统架构,为用户提供优质的服务体验。
svn: E175002: Commit failed (details follow): svn: E175002: Unexpected HTTP status 502Bad Gateway on
svn: E175002: Commit failed (details follow): svn: E175002: Unexpected HTTP status 502Bad Gateway on
693 1

热门文章

最新文章