暂时未有相关云产品技术能力~
暂无个人介绍
主成分分析是一种无监督的机器学习技术。可能它最常见的用处就是数据的降维。主成分分析除了用于数据预处理,也可以用来可视化数据。一图胜万言。一旦数据可视化,在我们的机器学习模型中就可以更容易得到一些洞见并且决定下一步做什么。
机器学习特征工程的总结(全)
传统编程的关注点是代码。在机器学习项目中,关注点变成了特征表示。也就是说,开发者通过添加和改善特征来调整模型。“Garbage in, garbage out”。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。特征工程,顾名思义,是指从原始数据创建特征的过程。
图神经网络从入门到入门
本文从一个更直观的角度对当前经典流行的GNN网络,包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。
手把手带你Transformer图像分类
关于大数据的完整讲解
本文分享了机器学习概念,学习路线和知识体系,希望帮助大家更好地入门机器学习。
一文概览NLP算法(Python)
NLP,自然语言处理就是用计算机来分析和生成自然语言(文本、语音),目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。
机器学习在选定模型、目标函数之后,核心便是如何优化(目标)损失函数。而常见的优化算法中,有梯度下降、遗传算法、模拟退火等算法,其中用梯度类的优化算法通常效率更高,而使用也更为广泛。接下来,我们从梯度下降(Gradient descent)、梯度提升(Gradient Boosting)算法中了解下“梯度”优化背后的原理。
整理20个Pandas统计函数
整理20个Pandas统计函数
Python拥有很多优秀的三维图像可视化工具,主要基于图形处理库WebGL、OpenGL或者VTK。
机器学习是该行业的一个创新且重要的领域。我们为机器学习程序选择的算法类型,取决于我们想要实现的目标。
TensorFlow决策森林构建GBDT(Python)
本文将系统全面的介绍自动机器学习的其中一个常用框架: Auto-Sklearn,介绍安装及使用,分类和回归小案例,以及一些用户手册的介绍。
在数据挖掘项目的数据中,数据类型可以分为两种:有序的连续数值 和 无序的类别型特征。
pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据处理工具,能更方便的操作大型表格类型的数据集。但是,随着数据量的剧增,有时numpy和pandas的速度就成瓶颈。
决策树模型因为其特征预处理简单、易于集成学习、良好的拟合能力及解释性,是应用最广泛的机器学习模型之一。
推荐一个有趣的AI黑科技--MockingBird,该项目集成了Python开发,语音提取、录制、调试、训练一体化GUI操作,号称只需要你的 5 秒钟的声音,就能实时克隆出你的任意声音
一文浅谈深度学习泛化能力
电影推荐项目实战(双塔模型)
本篇想和大家介绍下层次聚类,先通过一个简单的例子介绍它的基本理论,然后再用一个实战案例Python代码实现聚类效果。
前言:本篇文章用讲解+实战的形式,浅显易懂讲解“梯度下降”,拥有高中数学知识即可看懂。
想入门人工智能或者数据分析,要重视可以快速上手的学习技能:掌握一些基本概念,建立一个知识框架,然后就去实战,在实战中学习新知识,来填充这个框架。
人工神经网络背后的数学原理!
提到人工智能算法,人工神经网络(ANN)是一个绕不过去的话题。但是对于新手,往往容易被ANN中一堆复杂的概念公式搞得头大,最后只能做到感性的认识,而无法深入的理解。正好最近笔者本人也在经历这个痛苦的过程,本着真理越辩越明的态度,索性坐下来认真的把这些头大的问题梳理一番,试试看能不能搞清楚ANN背后的数学原理。
Scikit-learn是一个非常知名的Python机器学习库,它广泛地用于统计分析和机器学习建模等数据科学领域。
本教程内容旨在帮助没有基础的同学快速掌握 numpy 的常用功能,保证日常绝大多数场景的使用。可作为机器学习或深度学习的先修课程,也可作为快速备查手册。 值得一提的是,深度学习的各大框架很多 API 和 numpy 也是一脉相承的哦,可以说 numpy 玩儿熟了,几个深度学习框架的不少 API 也同时学会了。本文是教程的「第一部分」,从实际的代码应用出发,讲解了Numpy创建到统计的操作。
如果你打过kaggle应该一定都知道,大家心照不宣的表格数据竞赛的第一tricks:
首先明确一下问题,“特征工程在实际业务中的应用”,也就是领域业务知识和机器学习建模的相互结合。下面会对特征工程简单介绍,并且用自己工作中实际参与的项目给大家分享在银行贷款申请反欺诈场景&零售线上APP推荐场景的机器学习建模里,业务知识是如何帮助特征工程的。
给神经网络加入先验知识!
这是知乎上一个问题:k近邻、贝叶斯、决策树、svm、逻辑斯蒂回归和最大熵模型、隐马尔科夫、条件随机场、adaboost、em 这些在一般工作中分别用到的频率多大?一般用途是什么?需要注意什么?
本篇文章主要面向产品、业务、运营人员等任何非技术人员通俗易懂地讲解什么是深度学习和神经网络,二者的联系和区别是什么。无需技术背景也可以有一个比较全面清晰的认识。同时也为为大家讲解TensorFlow、Caffe、Pytorch等深度学习框架和目前工业界深度学习应用比较广的领域。
强化学习这个概念是2017年Alpha Go战胜了当时世界排名第一的柯洁而被大众知道,后面随着强化学习在各大游戏比如王者荣耀中被应用,而被越来越多人熟知。王者荣耀AI团队,甚至在顶级期刊AAAI上发表过强化学习在王者荣耀中应用的论文。那么强化学习到底是什么,如何应用?下面和大家分享我对强化学习的整个过程,以及强化学习目前在工业界是如何应用的,欢迎沟通交流。
一窥推荐系统的原理
一窥推荐系统的原理
我们在做网络营销的时候,无论是做海外的Google或Facebook,还是做国内的百度或微信推广,常常会听到ROI、ROAS、CPA、CPC、CPM、CVR、CTR等专业词汇,那么这些词汇有什么含义呢,其代表的相关数据又有哪些作用?
全面解析Kmeans聚类(Python)
LSTM原理及生成藏头诗(Python)
一文全面解决样本不均衡(Python)
本文第一节源于周志华教授《关于深度学习的一点思考》, 在此基础上对深度学习、深度森林做了原理解析并实践。
深入理解KNN扩展到ANN
一文弄懂CNN及图像识别(Python)
距离(distance,差异程度)、相似度(similarity,相似程度)方法可以看作是以某种的距离函数计算元素间的距离,这些方法作为机器学习的基础概念,广泛应用于如:Kmeans聚类、协同过滤推荐算法、相似度算法、MSE损失函数等等。本文对常用的距离计算方法进行归纳以及解析,分为以下几类展开:
循环神经网络(RNN)是基于序列数据(如语言、语音、时间序列)的递归性质而设计的,是一种反馈类型的神经网络,其结构包含环和自重复,因此被称为“循环”。它专门用于处理序列数据,如逐字生成文本或预测时间序列数据(例如股票价格)。
逻辑回归由于其简单高效、易于解释,是工业应用最为广泛的模型之一,比如用于金融风控领域的评分卡、互联网的推荐系统。上文总结了逻辑回归的原理及其实现【全面解析并实现逻辑回归(Python)】。 本文从实际应用出发,以数据特征、优化算法、模型优化等方面,全面地归纳了逻辑回归(LR)优化技巧。
本文以模型、学习目标、优化算法的角度解析逻辑回归(LR)模型,并以Python从头实现LR训练及预测。
我们训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主要有:预测误差情况、拟合程度、模型稳定性等方面。还有一些场景对于模型预测速度(吞吐量)、计算资源耗用量、可解释性等也会有要求,这里不做展开。