BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

简介: BR-MLP是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术,支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

分布式数据挖掘为何受到如此热议呢?在互联网发展中发挥着怎么样的作用呢?

大数据挖掘迅速地接纳了来源于其它科技领域的思想观念,涉及最优化方法、进化计算方法、信息论、数字信号处理、数据可视化和文本检索。大数据挖掘的任务包括是关联分析、聚类分析、分类管理、预测分析、时序模式和偏差具体分析。

BR-MLP(波若数据挖掘平台)是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术,支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

_Microsoft_Office_PowerPoint_

1.数据源
提供数据集载入方案和方案中数据保存到平台中的功能,

2.数据预处理
对数据进行清洗、类型转化、值填充等,使数据内容和结构更规整,以便后续组件处理,其包含:去除重复、随机采样、分层采样……

3特征工程
对预处理好的规整数据进行更深入的处理,主要有尺度变换、异常平滑、特征抽取和降维等。

特征离散、特征抽取……是其显著特征

4统计分析
对数据统计分析,了解数据的整体或详情、分布、相关性和适配度检验等,使我们在做数据预处理和特征工程时,心中有数,知道哪些因素对我们最终的结果影响比较大等。

5分类与回归
构建分类或回归模型,创建的模型应用于后续的业务数据(应用数据)的预测/分类、回归等。BR-MLP包括决策树分类、决策树回、朴素贝叶斯、随机森林分类……等12个算法。

6聚类
提供无监督的聚类机器学习方法,包括文本主题聚类等,可单独使用,进行自动分类,也可以和分类算法结合使用,先用聚类得到类别,再将得到的类别作为分类建模中的标签,构建分类模型。

7协同过滤
BR-MLP支持协同过滤,可用于分辨某特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。

8关联分析
用于分析事物之间的关联性,包括人与人之间的关联性,物与物之间的关联性,最经典的是尿布与啤酒的案例,在购物篮分析中很常用。

9深度学习
通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

10模型应用
选择已经建好的算法模型,将选出的模型应用于业务层面。

11可视化
将分类/回归、聚类模型应用结果进行图形化展现。

目录
相关文章
|
3月前
|
开发工具 git 开发者
Git 作为最流行的分布式版本控制系统之一,为开发者提供了强大的功能和灵活的操作方式
本文深入介绍了 Git 中的 `git rebase` 操作,涵盖其基本概念、原理、与 `git merge` 的区别、具体操作步骤及应用场景,如保持提交历史整洁、解决合并冲突等,并讨论了其优缺点。强调在公共分支上谨慎使用 rebase,以避免潜在的风险。
51 6
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
200 2
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
192 1
|
3月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
242 6
|
4月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
112 2
|
2月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
89 4
|
4月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
123 1
|
4月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
249 0
|
4月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
120 5