暂时未有相关云产品技术能力~
暂无个人介绍
无论什么时候,都有初学者存在找不到学习资源的困惑。其实呢,一般通过百度、知乎估计也都能找到个的结果,不过质量可能就会层次不齐了。
抽样是统计学、机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到。所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本。
在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。
在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。
Jupyter最近迎来了一个劲爆的更新:JupyterLab 发布了桌面APP版本!知道以后,马上第一时间码字来告诉大家。
EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。
category是pandas的一种分类的定类数据类型。和文本数据.str.<methond>一样,它也有访问器功能.cat.<method>。
本篇想和大家介绍下层次聚类,先通过一个简单的例子介绍它的基本理论,然后再用一个实战案例Python代码实现聚类效果。
大家好,我是东哥。 继续更新pandas数据清洗,历史文章: pandas 缺失数据处理大全(附代码) pandas 重复数据处理大全(附代码) 感兴趣可以关注这个话题pandas数据清洗,第一时间看到更新。
继续更新pandas数据清洗,上一篇说到缺失值的处理。
之前一直在分享pandas的一些骚操作:pandas骚操作,根据大家反映还不错,但是很多技巧都混在了一起,没有细致的分类,这样不利于查找,也不成体系。
本篇是pandas骚操作系列的第 24 篇:自动优化数据类型,暴省内存! 系列内容,请看👉「pandas骚操作」话题,订阅后文章更新可第一时间推送至订阅号。内容也同步我的GitHub,欢迎star!
关于pandas的GUI工具,我之前介绍过pandasgui。可以说,有了GUI可视化界面,操作就和Excel一样简单,本次再介绍一款功能更加强大的GUI神器:D-Tale。
最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。
我的原计划是输出100个,目前来看可能最终不一定会到100个,但每个都是超实用且平时经常会遇到的问题。pandas的用法太多了,如果不熟练,平时是需要经常网上查找的,这个系列可以帮助大家快速回忆用法。
日常用Python做数据分析最常用到的就是查询筛选了,按各种条件、各种维度以及组合挑出我们想要的数据,以方便我们分析挖掘。
本次为大家整理了一个pandas骚操作操作的大集合,共20个功能,个个短小精悍,一次让你爱个够。系列内容,请看👉「pandas100个骚操作」话题。
在数据处理时,经常会因为index报错而发愁。不要紧,本次来和大家聊聊pandas中处理索引的几种常用方法。
通过pandas的使用,我们经常要交互式地展示表格(dataframe)、分析表格。而表格的格式就显得尤为重要了,因为大部分时候如果我们直接展示表格,格式并不是很友好。
说起流程图可能大家第一个想到Viso,功能是很强大,但也有一些弊端: 需要付费 无法跨平台使用 之前东哥就分享过一些在线的流程图软件了,比如draw.io和processon,功能上丝毫不比商业软件差,而且更加便捷、不占据硬盘空间,同时支持团队协同。
大家好,我是东哥。本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,数据和源码在文末。
大家好,我是东哥。本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,数据和源码在文末。
Python交互式可视化库Bokeh在现代web浏览器中支持大型数据集的高性能可视化表示。Bokeh 的目标是使用 D3.js 样式提供优雅,简洁新颖的图形化风格,同时提供大型数据集的高性能交互功能。
本篇将介绍concat常用的5个操作技巧: 处理索引和轴 避免重复索引 使用keys和names选项添加层次结构索引 列匹配和排序 连接CSV文件数据集
pandas有一个特别的数据类型叫category,如其名一样,是一种分类的数据类型。category很娇气,使用的时候稍有不慎就会进坑,因此本篇东哥将介绍在pandas中,
玩过建模的朋友都知道,在建立模型之前有很长的一段特征工程工作要做,而在特征工程的过程中,探索性数据分析又是必不可少的一部分,因为如果我们要对各个特征进行细致的分析,那么必然会进行一些可视化以辅助我们来做选择和判断。
pandas的groupby是数据处理中一个非常强大的功能。虽然很多同学已已经非常熟悉了,但有些小技巧还是要和大家普及一下的。
不得不说,Jupyter对于表的处理真的是越来越方便了,很多库可以直接实现可视化操作,无需写代码。但是这还不够,最近看到一个神器叫Mito,它真的是做到了无需写一行代码,而且手动的操作可以自动转换为代码,供后续批量化操作,这简直不要太爽。
本篇是pandas100个骚操作系列的第 13 篇:一行代码让 pandas 的 apply 速度飙到极致!
本次分享的pandas骚操作非常简单,但很实用。尤其在面临数据处理的过程中,是我们一定会面临的问题,下面一起来看一下。
大家好,我是东哥。 本篇是pandas100个骚操作系列的第 11 篇:再见 for 循环!速度提升315倍! 系列内容,请看👉「pandas100个骚操作」话题,订阅后文章更新可第一时间推送至订阅号。
本篇是pandas100个骚操作系列的第 10 篇:使用 Datetime 提速 50 倍运行速度!
explode 列转行的 2 个常用技巧!
transform 数据转换的 4 个常用技巧!
一行 pandas 代码搞定 Excel “条件格式”!
强大的 accessor 方法
2021 年 VS Code 必备 Python 插件!
Python模型完美切换SAS,还能这么玩。
再见 VBA!神器工具统一 Excel 和 Python
EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。
嵌套 JSON 秒变 Dataframe!
最近发现了几个pandas的骚操作,小巧实用,个个经典,下面快速介绍下。
对于Pandas运行速度的提升方法,之前已经介绍过很多回了,里面经常提及Dask,很多朋友没接触过可能不太了解,今天就推荐一下这个神器。
开篇先说个题外话,昨天有一些事情耽误,发文时间稍晚,可能一些朋友会错过,这里再推荐下:牛逼!一行代码让 pandas 的 apply 速度飙到极致!还有,这篇文末赠送了5本新书《Python开发者技术大全》,欢迎参与。
前几天,分享了一篇文章,是关于替代pandas的工具vaex。vaex利用了内存映射的原理,所以比pandas能快上几百倍,但是vaex目前功能有限,所以暂时pandas还是无法撼动的。
用Python做数据分析离不开pandas,pnadas更多的承载着处理和变换数据的角色,pands中也内置了可视化的操作,但效果很糙。
最近日常逛逛技术平台,偶然间发现了一个非常牛逼的可视化学习网站。东哥之前在公众号和技术群里也推荐过一些,但和这个相比我觉得真是太逊色了。
Matplotlib作为强大的数据可视化工具,一直备受Python数据爱好者们追捧。网络上虽有零零散散的教程,但并不是非常的系统和直观,往往我们遇到一些问题的时候还是要去百度或者到官网上寻求方法。
前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。吃灰是常规操作,但也得吃,总比需要用的时候找不到强。 下面开始进入正题。
相信大部分入门数据库的朋友都是从数据库的“增删改查”学起的。其实,对于很多搞业务的非专业技术人员而言,可能基本的增删改查也够用了,因为目的并不是要写的多好,只要能正确查到自己想要的分析的数据就可以了。 但是,对于一个专业搞数据分析的人而言,可就没那么简单了。这个自己平时跑个小数可能也没啥感觉,但现实工作中当公司业务数据量达到百万甚至千万级以上时,一个查询语句写的好坏所造成的影响就尤为明显了。所以也就不难理解为什么面试的时候面试官喜欢问一些关于优化的问题。