Spark-ML-02-设计机器学习系统

简介: 机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。

机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中,
机器学习应用在:

  • 个性化
    根据各个因素改变用户的体验和呈现给用户的内容。包含了用户的行为数据和外部因素。推荐也是个性化一种,向用户呈现感兴趣的内容类表,推荐是显式的,个性化也有隐式的,比如是搜索这块,基于用户的数据改变用户的搜索结果,突然想起某度的的竞价排名。一般应该是基于地理位置、搜索历史、推荐数据等。
  • 目标营销和客户细分
    从用户群找出营销对象,推荐和个性化是一对一的,而客户细分是将用户分成不同的组,基于用户的特征,行为数据,比如聚类,了解用户的共性和同组用户之间的相似性,及其差异。是种广泛的营销,帮助制定营销策略。
  • 预测建模和分析
    也覆盖以上,预测建模是表示其他做预测的模型,借助数据创建一个模型。比如创建一个回归模型来预测电影的市场表现。分类模型来对只有部分数据的新电影来自动的分配标签和关键字和分类。第一次接触预测是参加电信的一个比赛,代码在这里可以看看https://github.com/jinhang/TianYiBeiBigDataMatch

一般两种模型,监督学习和无监督学习。具体区分是是否要标记数据。

构建一个数据驱动的机器学习系统

这里写图片描述

1、 数据获取

这里涉企技术也很多,数据可以从来自浏览器里的用户活动、APP里的日志、API上的日志等。这些数据可能是在文件系统HDFS等中,关系型数据库中Mysql等,非关系型数据库中,Hbase等,搜素引擎中,solr、elasticsearch,流数据系统,Kafka、Flume等,当然spark可以接受这些。

2 、数据清理转换

数据过滤:满足特定条件的数据
处理数据流失、不完整或有缺陷:过滤非正规的数据,填写缺失值(比如平均值填写缺失点)
- 处理可能异常、错误、异常值
异常的数据可能不利于模型的训练的。
- 合并数据源
将来自不同地方的数据合并

  • 数据汇总
    数据预处理后将其转换成适合学习的形式,一般是数组等。

  • 类别用编码对应数值

  • 文本中提取有用信息
  • 处理图像音频
  • 数值数据转换成类别数据减少某个量的可能值数目,比如将年龄分段表示
  • 数值特征正则化、标准化处理、保证一个模型输入不同的变量值域一样
  • 特征工程师对现有的变量组合转化新特征。比如得到平均数
    这些东西用强大的Spark API是可以完成的,不行还有Python嘛。

3、模型训练个测试回路

通过测试集测试得到的模型,含有最佳的参数和最好的表现。

4、部署和整合

可以整合进J2ee的项目,提高服务给APP等。

5、模型监控和反馈

监控在新数据环境也就是生产环境下的表现,一般是部署多个模型紧贴业务测试,不一定准确度高的就业务表现好,然后折中处理,对于模型反馈是用户的行为对模型的反馈过程,在推荐系统中,推荐实际限制了用户可选项,影响了用户的选择,这种反馈会影响模型的训练数据,最后降低准确率。为了降低这种影响,用无偏见的数据来训练,比如没有使用推荐的用户,为了达到平衡需求划分出来的客户数据,对于提高系统稳定性是很好解决办法。

目录
相关文章
|
6月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
299 57
|
4月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
295 46
|
9月前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
756 4
|
7月前
|
存储 人工智能 自然语言处理
基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统
本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务,并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS,用户可以一键部署集成大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算,适用于复杂任务的动态决策,帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。
|
7月前
|
人工智能 自然语言处理 API
Hologres × PAI × DeepSeek 搭建 RAG 检索增强对话系统
本文介绍如何使用PAI-EAS部署基于DeepSeek大模型的RAG(检索增强生成)服务,并关联Hologres引擎实例。Hologres与阿里云自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时的向量计算能力。通过PAI-EAS,用户可以一键部署集成了大语言模型和RAG技术的对话系统服务,显著缩短部署时间,并提高问答质量。部署步骤包括准备Hologres向量检索库、部署基于DeepSeek的RAG服务、通过WebUI进行模型推理验证,以及通过API调用进行模型推理验证。Hologres还提供了特色功能支持,如高性能向量计算等。
|
8月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
375 15
|
8月前
|
人工智能 自然语言处理 安全
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
161 0
|
10月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
563 4
|
11月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
254 1

热门文章

最新文章