BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析-阿里云开发者社区

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

2019-06-19 1240

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： BR-MLP是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术，支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

分布式数据挖掘为何受到如此热议呢？在互联网发展中发挥着怎么样的作用呢？

大数据挖掘迅速地接纳了来源于其它科技领域的思想观念，涉及最优化方法、进化计算方法、信息论、数字信号处理、数据可视化和文本检索。大数据挖掘的任务包括是关联分析、聚类分析、分类管理、预测分析、时序模式和偏差具体分析。

BR-MLP（波若数据挖掘平台）是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术，支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

_Microsoft_Office_PowerPoint_

1.数据源
提供数据集载入方案和方案中数据保存到平台中的功能，

2.数据预处理
对数据进行清洗、类型转化、值填充等，使数据内容和结构更规整，以便后续组件处理，其包含:去除重复、随机采样、分层采样……

3特征工程
对预处理好的规整数据进行更深入的处理，主要有尺度变换、异常平滑、特征抽取和降维等。

特征离散、特征抽取……是其显著特征

4统计分析
对数据统计分析，了解数据的整体或详情、分布、相关性和适配度检验等，使我们在做数据预处理和特征工程时，心中有数，知道哪些因素对我们最终的结果影响比较大等。

5分类与回归
构建分类或回归模型，创建的模型应用于后续的业务数据（应用数据）的预测/分类、回归等。BR-MLP包括决策树分类、决策树回、朴素贝叶斯、随机森林分类……等12个算法。

6聚类
提供无监督的聚类机器学习方法，包括文本主题聚类等，可单独使用，进行自动分类，也可以和分类算法结合使用，先用聚类得到类别，再将得到的类别作为分类建模中的标签，构建分类模型。

7协同过滤
BR-MLP支持协同过滤，可用于分辨某特定顾客可能感兴趣的东西，这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性，在全球互联网领域炙手可热。

8关联分析
用于分析事物之间的关联性，包括人与人之间的关联性，物与物之间的关联性，最经典的是尿布与啤酒的案例，在购物篮分析中很常用。

9深度学习
通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

10模型应用
选择已经建好的算法模型，将选出的模型应用于业务层面。

11可视化
将分类/回归、聚类模型应用结果进行图形化展现。

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

热门文章

最新文章

相关课程

相关电子书

相关实验场景