数据库必知词汇:MADLib-阿里云开发者社区

开发者社区> 阿里云术语库> 正文

数据库必知词汇:MADLib

简介: Apache MADlib是Pivotal与UCBerkeley合作的一个基于SQL的数据库内置的可扩展的开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。

Apache MADlib是Pivotal与UCBerkeley合作的一个基于SQL的数据库内置的可扩展的开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。

MADlib提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.9,支持PostgreSQL、Greenplum数据库和Apache HAWQ。In-Database Analytics的特性使其大大扩展了数据库的分析功能,充分利用MPP架构使其能够快速处理海量数据集。

MADlib能直接在数据库中使用SQL语句对数据进行数据分析,使数据分析的变得便捷方便,是很实用和强大的数据分析工具。
特点:

  • 擅长矩阵计算和仿真模拟;
  • 具有丰富的数学函数,适合算法开发或自主的程序开发;
  • 具有强大的绘图功能。

它不是面向程序员的,而是面向数据库开发或DBA的。如果用一句话说明什么是MADlib,那就是“SQL中的大数据机器学习库”。通常SQL查询能发现数据最明显的模式和趋势,但要想获取数据中最为有用的信息,需要的其实是完全不同的另一套技术,一套牢固扎根于数学和应用数学的技能,当然指的就是数据挖掘或机器学习,而具备这种技术的人才似乎只存在于学术界中。如果能将SQL的简单易用与数据挖掘的复杂算法结合起来,充分利用两者的优势和特点,那对于广大传统数据库应用技术人员来说,学习和从事数据挖掘工作的门槛将大大降低。现在,鱼和熊掌兼得的机会来了,DBAer不用现学Python、R或MATLAB,只要使用MADlib,用SQL就能实现简单的数据挖掘。

资料来源:
Apache顶级开源项目——机器学习库MADlib简介与应用实例 https://www.sohu.com/a/272091763_747818
数据库数据分析扩展—MADlib http://blog.geohey.com/shu-ju-ku-shu-ju-fen-xi-kuo-zhan-madlib/

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云术语库提供术语的标准定义、缩略语、术语用法及多语言等,提供术语的增删改查等功能。

官方博客
官网链接