暂时未有相关云产品技术能力~
『为AI硬核资料库(cool)而生!』构建AI解决方案,用知识加速每一次技术成长!网站:https://www.showmeai.tech/ 公众号:ShowMeAI研究中心
一文讲解数据分析所需要的数学知识!本文包括描述性统计量(集中趋势、离散程度和分布形态),相关性与线性回归、方差分析、概率论(概率事件、条件概率、排列组合、概率分布)、统计推断(抽样、假设检验)等。
数据分析思维的核心为六个字——对比、细分、溯源,也即数据分析的三板斧,也是数据实践的有效支撑。本文详细讲解对比对数据的要求、数据细分的维度与数据溯源的注意事项等重点知识。
数据分析是洞察数据背后的规律、得出准确的结论或做出正确决策的过程。本文讲解数据化分析思维的养成,包括最常使用的五力模型、PEST、SWOT、生命周期、金字塔原理、SMART、5W2H等重要模型和理论。
数据分析是一项应用非常广泛的技能。本系列教程展开讲解数据分析。这套数据分析教程不同于其他文字版教程,我们以最直挂的「图示」对每个内容和关键点「可视化」,配以最精准精简的代码,让大家尽快入门~
GraphFrames库构建在DataFrame之上,具备DataFrame强大的性能,也提供了统一的图处理API。本文讲解GraphFrames的构建使用,包括query与数据分析、图中点与边的计算、图入度与出度的应用等。
本文介绍Spark中用于大数据机器学习的板块MLlib/ML,讲解分类算法、回归算法、聚类算法和PCA降维算法的代码实践,并讲解超参数调优和交叉验证、训练集验证集切分等重要知识点。
本文介绍Spark中用于大数据机器学习的板块MLlib/ML,讲解机器学习工作流(Pipeline)及其构建方式,并详解讲解基于DataFrame的Spark ML特征工程,包括二值化、定边界离散化、标准化、特征抽取等。
Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量。本文讲解Spark Streaming的架构、作业提交和工作原理,以及DStream的创建、转换和Graph,并通过案例代码展示应用的细节。
DataFrame是一个以命名列方式组织的分布式数据集。本文详细讲解 Spark Dataframe的创建方式,Dataframe数据的Agg、Collect、Groupby、Join等核心操作,以及Spark SQL操作核心要点。
文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景,讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程,并且对分析结果做了可视化呈现。
电商与新零售是目前大数据与AI应用最广泛的场景之一,本案例以跨国在线零售业务为背景,讲解使用pyspark对HDFS存储的数据进行交易数据分析的过程,并且对分析结果使用echarts做了可视化呈现。
2020以来新冠疫情改变了全世界,影响着大家的生活,本案例结合大数据分析技术,使用pyspark对2020年美国新冠肺炎疫情进行数据分析,并结合可视化方法进行结果呈现。
RDD(弹性分布式数据集合)是Spark的基本数据结构,Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点,并图解RDD高频算子。
Apache Spark是目前最主流和常用的分布式开源处理系统,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。
HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库,包含Region Server、HBase Master、ZooKeeper等三个组件。Hive是基于Hadoop的一个数据仓库工具,用于结构化数据的查询、分析和汇总。
Hive是大数据离线计算的关键组件,常用于数仓建设。本节ShowMeAI来详细讲解Hive的搭建和配置及使用方法。
Hadoop使用一套Map-Reduce的计算框架,解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码,详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。
本教程详细讲解Hadoop的安装与环境配置方法,并配有相关软件的下载方法。需要注意的是,本教程的工作环境为Linux系统。
Hadoop是最基础和场景的开源分布式计算平台,ShowMeAI在本节内容中给大家讲解Hadoop相关知识。
随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。
本篇内容是ShowMeAI组织的「图解大数据处理与开发」系列教程入口,本教程以大数据技术为根基,给大家讲解大数据开发与数据处理分析的相关知识与技能,并配以相关的实战案例帮助大家学习理解。
本篇介绍工具库FLAML。FLAML 由 Microsoft Research 开发,适用于AutoML自动化机器学习建模,构建端到端机器学习流程、解决实际场景问题。
本篇讲解使用自动化特征工程工具Featuretools,对数据进行自动化特征工程的方法,并借助于BigMart Sales数据集来演示自动化特征工程的相关应用。
本篇内容给大家详细讲解了特征工程的知识,包括数据清洗(数据对齐、缺失值处理、异常值处理),特征构建,特征变换,特征选择与实战特征工程经验等内容。
本篇内容是Kaggle数据科学竞赛Rossmann store sales解决方案的进阶版本,整体方案包括探索性数据分析、缺失值处理、特征工程、基准模型与评估、XGBoost建模与调优等完整板块。
本篇内容基于Kaggle数据科学竞赛Rossmann store sales,梳理和总结基于Python解决电商建模的全过程:包括数据探索分析、数据预处理与特征工程、建模与调优。
本篇详细讲解LightGBM的工程应用方法。LightGBM是微软开发的boosting集成模型,和XGBoost一样是对GBDT的优化和高效实现,但它很多方面比XGBoost有着更为优秀的表现。
本篇内容详细讲解XGBoost的工程应用方法。XGBoost是一个非常强大的Boosting算法工具包,是很多大厂机器学习方案的模型首选,在并行计算效率、缺失值处理、控制过拟合等能力上都表现非常优秀。
本篇内容详解scikit-learn工具库的用法,覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。
本篇内容介绍了SKLearn的核心板块,并通过SKLearn自带的数据集,讲解一个典型应用案例。
本篇文章详解机器学习应用流程,应用在结构化数据和非结构化数据(图像)上,借助案例重温机器学习基础知识,并学习应用机器学习解决问题的基本流程。
Python机器学习实战系列教程,以案例和代码驱动的方式,帮助大家学习机器学习算法应用流程和各个链条环节,掌握构建场景建模解决方案并进行效果调优的能力。
聚类是最常见的无监督学习算法。本文讲解聚类问题常见算法及用途,包括划分聚类的K-Means算法、K-Medoids算法,层次聚类的Single-Linkage 算法、Complete-Linkage算法,和DB-SCAN算法。
SVM是机器学习领域非常知名的模型。本文讲解SVM的最大间隔分类器、模型原理、核函数与核技巧等重要知识点,并附上线性核函数、多项式核函数和高斯核函数的Python代码实践。
LightGBM是GBDT的进化版本,在效率、内存、准确率方面表现优秀。本文讲解LightGBM的动机、优缺点及优化点、决策树算法及生长策略、类别性特征支持、并行支持与优化等重要知识点。
XGBoost一个非常强大的Boosting算法工具包,本文讲解XGBoost的算法原理和工程实现,包括监督学习、回归树、集成、Gradient Boosting详细步骤,以及XGBoost的并行列块涉及、缓存访问等工程优化知识。
GBDT是一种迭代的决策树算法,将决策树与集成思想进行了有效的结合。本文讲解GBDT算法的Boosting核心思想、训练过程、优缺点、与随机森林的对比、以及Python代码实现。
用于回归任务的决策树称作回归树,属性选择与生长方式与分类决策树不同。本文讲解决策树回归算法的核心思想、启发式切分、最优属性选择、过拟合、正则化、以及缺失值处理等关键知识点。
随机森林是一种由决策树构成的(并行)集成算法。本文讲解随机森林算法涉及的模型集成、Bagging、算法特点及优缺点等重要知识点,最后介绍关键参数和参数调优。
决策树是机器学习中一种经典的分类与回归算法。本文讲解用于分类的决策树,包括算法核心思想、算法过程、最优划分、属性选择、过拟合与连续值处理、缺失值处理等重要知识点。
朴素贝叶斯是一个非常直观的模型。本文讲解朴素贝叶斯算法的核心思想、贝叶斯公式、条件独立假设、平滑出等重要知识点,并图解多项式贝叶斯和伯努利贝叶斯等多种形态。
逻辑回归简单有效且可解释性强,是机器学习领域最常见的模型之一。本文讲解逻辑回归算法的核心思想,并讲解sigmoid函数、梯度下降、解决过拟合、线性/非线性切分等重要知识点。
KNN算法(K近邻算法)是一种很朴实的机器学习方法,既可以做分类,也可以做回归。本文详细讲解KNN算法相关的知识,包括:核心思想、算法步骤、核心要素、缺点与改进等。
在AI场景下,我们同样需要定量的数值化指标,来指导我们更好地应用模型对数据进行学习和建模。本文讲解模型评估的一般流程,以及分类评估指标、回归评估指标的计算方式和适用场景。
本文覆盖机器学习常见知识要点,包括机器学习流程、算法分类(监督学习、无监督学习、强化学习)、依托的问题场景(分类、回归、聚类、降维)、机器学习模型评估与选择等。
本篇内容是ShowMeAI组织的「图解机器学习算法」系列教程入口,本教程尽量以生动可视化的方式,帮助大家理解机器学习的核心知识和重要的系列模型,并配以相关的代码实现帮助大家了解应用方法。(对机器学习实战感兴趣的同学,可以关注ShowMeAI的另外一个系列[机器学习应用实践])
本篇介绍自然语言处理中关于序列模型的高级知识,包括Sequence to sequence序列到序列模型和注意力机制。
本节介绍自然语言处理的文本表示与词嵌入相关知识,包括:词嵌入与迁移学习/类比推理,词嵌入学习方法,神经概率语言模型,word2vec(skip-gram与CBOW),GloVe,情感分析,词嵌入消除偏见
本节介绍介绍循环神经网络(RNN)的重要知识,包括:循环神经网络RNN,语言模型,采样生成序列,RNN梯度消失与梯度爆炸,GRU(门控循环单元),LSTM(长短期记忆),双向与深度RNN等
本节介绍计算机视觉中其他应用,包括:人脸识别、Siamese网络、三元组损失Triplet loss、人脸验证、CNN表征、神经网络风格迁移、1D与3D卷积。