小数志_社区达人页

个人头像照片
小数志
已加入开发者社区2029

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布87篇文章
3条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • 数据库
  • 数据分析
  • 机器学习
  • 深度学习
擅长领域
  • Python
    高级

    能力说明:

    通过课程学习与实战项目,熟练掌握Python的语法知识与编程技能,具备Python语言的函数、面向对象、异常处理等能力,常用开发框架的实际应用和开发能力,具备使用,掌握Python数据分析三剑客Matplotlib、Numpy、Pandas的概念与应用场景,掌握利用Python语言从数据采集到分析的全流程相关知识。

技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2022年05月

  • 05.27 18:43:00
    发表了文章 2022-05-27 18:43:00

    Pandas用的6不6,来试试这道题就能看出来

    近日,在实际工作中遇到了这样一道数据处理的实际问题,凭借自己LeetCode200+算法题和Pandas熟练运用一年的功底,很快就完成了。特此小结,以资后鉴!
  • 05.27 18:37:23
    发表了文章 2022-05-27 18:37:23

    再见,Excel数据透视表;你好,pd.pivot_table

    Excel作为Office常用办公软件之一,其在一名数据分析师的工作日常中也占有一定地位,比如个人就常常倾向于依赖Excel完成简单的数据处理和可视化作图,其中数据处理部分则主要是运用内置函数+数据透视表两大部分。 Excel数据透视表虽好,但在pandas面前它也有其不香的一面!
  • 05.27 18:29:39
    发表了文章 2022-05-27 18:29:39

    用Pandas做数据清洗,我一般都这么干……

    作为一名数据分析师,每天都在完成各种数据分析需求,其中数据清洗是必不可少的一个步骤。一般而言,当提及数据清洗时,其实是主要包括了缺失值处理、重复值处理和异常值处理三类操作,本文即围绕这这三个方面介绍一下个人的一些习惯操作。
  • 05.27 17:03:54
    发表了文章 2022-05-27 17:03:54

    Naive Bayes——Naive在哪?

    经典机器学习算法中,Naive Bayes可占一席之地,也是唯一一个纯粹的概率分类算法模型。考虑其原理简单却不失强悍性能,Naive Bayes是个人最喜爱的算法之一——当然,另一个是决策树。
  • 05.27 16:59:19
    发表了文章 2022-05-27 16:59:19

    刚刷了3道某大厂的机试题,居然满分过了

    刷惯了LeetCode,近日体验了一下牛客网的在线编程系统,这里记录一次某大厂的3道机试题实录,最后居然是满分通过。题目不难,但有一定借鉴意义!
  • 05.27 16:55:42
    发表了文章 2022-05-27 16:55:42

    从0开始实现一个Adaboost分类器(完整代码)

    日前,通俗易懂的推导了三种集成学习的原理及主要公式,今天本文基于Python从0开始手动实现一个Adaboost分类器,文中提供完整代码。
  • 05.27 16:19:55
    发表了文章 2022-05-27 16:19:55

    三种集成学习算法原理及核心公式推导

    本文主要介绍3种集成学习算法的原理及重要公式推导部分,包括随机森林(Random Forest)、自适应提升(AdaBoost)、梯度提升(Gradient Boosting)。仅对重点理论和公式推导环节做以简要介绍。
  • 05.27 16:08:04
    发表了文章 2022-05-27 16:08:04

    详解pd.DataFrame中的几种索引变换

    pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。本文主要介绍行索引的几种变换方式,包括rename与reindex、index.map、set_index与reset_index、stack与unstack等。
  • 05.27 15:55:16
    发表了文章 2022-05-27 15:55:16

    最近,我用pandas处理了一把大数据……

    pandas堪称瑞士军刀般的存在,几乎可以胜任数据分析的全过程。如果说有什么缺点的话,那么就是其不支持分布式,所以对于小数据量完全不压力,但面对大数据时却当真有些乏力。近日,自己便用pandas处理了一些大数据场景,现分享几个心得技巧。
  • 05.27 15:07:36
    发表了文章 2022-05-27 15:07:36

    PySpark ML——分布式机器学习库

    继续PySpark学习之路,本篇开启机器学习子模块的介绍,不会更多关注机器学习算法原理,仅对ML库的基本框架和理念加以介绍。最后用一个小例子实战对比下sklearn与pyspark.ml库中随机森林分类器效果。
  • 05.27 15:01:14
    发表了文章 2022-05-27 15:01:14

    PySpark SQL——SQL和pd.DataFrame的结合体

    昨日推文PySpark环境搭建和简介,今天开始介绍PySpark中的第一个重要组件SQL/DataFrame,实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体,功能也几乎恰是这样,所以如果具有良好的SQL基本功和熟练的pandas运用技巧,学习PySpark SQL会感到非常熟悉和舒适。
  • 05.27 14:48:03
    发表了文章 2022-05-27 14:48:03

    数据科学系列:sklearn库主要模块功能简介

    作为一名数据分析师,当我初次接触数据分析三剑客(numpy、pandas、matplotlib)时,感觉每个库的功能都很多很杂,所以在差不多理清了各模块功能后便相继推出了各自教程(文末附链接);后来,当接触了机器学习库sklearn之后,才发现三剑客也不外如是,相比sklearn简直是小巫见大巫;再后来,又开始了pyspark的学习之旅,发现无论是模块体积还是功能细分,pyspark又都完爆sklearn;最近,逐渐入坑深度学习(TensorFlow框架) 鉴于机器学习本身理论性很强,加之sklearn库功能强大API众多,自然不是总结
  • 05.27 12:55:34
    发表了文章 2022-05-27 12:55:34

    数据库初学者的福音——SQLite

    数据库操作应该算是所有程序员的基本功了,写的一手好SQL对于数据分析师而言更是安身立命之本。前期,个人惯用的是MySQL,近日由于工作需要对Sqlite使用更为频繁,所以便简单了解了一下,发现sqlite当真有其好用的一面,堪称是数据库初学者的福音。做以简单纪要。
  • 05.27 09:03:57
    发表了文章 2022-05-27 09:03:57

    3道数据分析师面试题实录

    今天参加了一场数据分析师面试,遴选3道记录以资后鉴。
  • 05.27 08:53:01
    发表了文章 2022-05-27 08:53:01

    从pandas中的这几个函数,我看懂了道家“一生二、二生三、三生万物”

    pandas是用python进行数据分析最好用的工具包,没有之一!从数据读写到预处理、从数据分析到可视化,pandas提供了一站式服务。而其中的几个聚合统计函数,不仅常用更富有辩证思想,细品之下不禁让人拍手称快、直呼叫好!
  • 05.26 20:10:51
    发表了文章 2022-05-26 20:10:51

    临行在即,分享一个自己写的sklearn源码库

    考虑接下来一段时间会出差在外,现将自己近1个月来学习ML算法的一点成果做以分享,相关源码纯干货版本已上传至GitHub,有需要者可通过"阅读原文"连接自行clone
  • 05.26 20:05:46
    发表了文章 2022-05-26 20:05:46

    一句SQL,我有6种写法

    最近在刷LeetCode中数据库题目时,有一道排名题目,用了6种写法分别代表6种SQL思维来实现,想想也算是有趣。
  • 05.26 11:06:21
    发表了文章 2022-05-26 11:06:21

    分享几道LeetCode中的MySQL题目解法

    最近刷完了LeetCode中的所有数据库题目,深深感到有些题目还是非常有深度和代表性的,而且比较贴合实际应用场景,特此发文以作分享。
  • 05.26 10:58:08
    发表了文章 2022-05-26 10:58:08

    MySQL中查询中位数?

    计算中位数可能是小学的内容,然而在数据库查询中实现却并不是一件容易的事。我们今天就来看看都有哪些方法可以实现。
  • 05.26 10:41:03
    发表了文章 2022-05-26 10:41:03

    用numpy如何创建一个空数组?

    最近在用numpy过程中,总会不自觉的需要创建空数组,虽然这并不是一个明智的做法,但终究是可能存在这种需求的。本文简单记录3种用numpy生成空数组的方式。
  • 05.26 10:31:42
    发表了文章 2022-05-26 10:31:42

    MySQL查询连续打卡信息?

    最近多次看到用SQL查询连续打卡信息问题,自己也实践一波。抛开问题本身,也是对MySQL窗口函数和自定义变量用法的一种练习。
  • 05.25 20:25:37
    发表了文章 2022-05-25 20:25:37

    划重点!你还在困惑MySQL中的"锁"吗?

    最近在学习查找MySQL中"锁"的相关资料时,发现网上各种言论观点杂乱不堪且版本混乱,很容易让人深陷其中、很是蒙圈。笔者认真研读了MySQL8.0官方指导手册,并广泛搜集各家观点,整理了一份参考性较强的关于MySQL中"锁"机制的知识点合集,以供参考学习。
  • 05.25 19:49:09
    发表了文章 2022-05-25 19:49:09

    听说数据分析师挺火,我们来数据分析一下

    经常看见各种数据分析师培训的运营推荐,那么数据分析师的就业行情究竟如何?让我们用数据说话,一探究竟!
  • 05.25 19:36:52
    发表了文章 2022-05-25 19:36:52

    MySQL之DDL语言知多少

    学习MySQL时间也不短了,一直习惯于增删改查。近期,系统学习了一下DDL,简单总结一下DDL中的增删改查……
  • 05.25 19:33:17
    发表了文章 2022-05-25 19:33:17

    一文解决所有MySQL分类排名问题

    对数据库中的记录依据某个字段进行排序是一种常见需求,虽然简单的Order by可以胜任,但如果想要输出具体的排名却难以直接实现。如果再考虑重复排名或者分类排名,那么情况就更为复杂。 本文介绍4种分类排名方式:子查询、自连接、自定义变量以及MySQL8.0窗口函数。
  • 05.25 19:26:38
    发表了文章 2022-05-25 19:26:38

    MySQL模糊搜索的几种姿势

    导读:本文对MySQL中几种常用的模糊搜索方式进行了介绍,包括LIKE通配符、RegExp正则匹配、内置字符串函数以及全文索引,最后给出了性能对比。
  • 05.25 19:17:24
    发表了文章 2022-05-25 19:17:24

    Tableau可视化之其他常用图表

    导读:前几篇Tableau文章中,分别介绍了折线图、条形图、地图和饼图的几种用法,今天本文简单介绍其他几种常用的可视化图表类型。
  • 05.25 13:40:03
    发表了文章 2022-05-25 13:40:03

    Tableau可视化之多变饼图

    导读:前几篇文章分别对应用Tableau制作折线图、条形图、可视化地图进行了介绍,本文介绍另一大可视化图表利器——饼图。尤其是最后给出了玫瑰图制作方法。
  • 05.25 13:26:09
    发表了文章 2022-05-25 13:26:09

    Tableau可视化之多变地图

    导读:可视化地图在描述地理位置相关度量时效果直观、优势明显,Tableau制作地图非常方便,而且支持多种可视化地图形式。本文介绍几种经典的可视化地图形式。
  • 05.25 13:24:31
    发表了文章 2022-05-25 13:24:31

    Tableau可视化之多变条形图

    导读:上篇Tableau可视化之多变折线图一文中,介绍了Tableau折线图的几种花样作图方法,今天本文继续就另一个基本可视化图表——条形图的制图及变形进行介绍。
  • 05.24 21:18:02
    发表了文章 2022-05-24 21:18:02

    Tableau可视化之多变折线图

    导读:Tableau是商业智能软件届的翘楚,对于制作各种可视化分析图表极为便捷。本文主要讲解用tableau制作各种多变折线图,包括凹凸图、弧线图和雷达图等。
  • 05.24 21:08:45
    发表了文章 2022-05-24 21:08:45

    总结了一些二叉树操作的干货……

    导读:二叉树是一种经典的数据结构,其概念本身不难理解,但因其结构的特殊性,许多操作都有着非常精妙的技巧。结合最近LeetCode中的一些相关题目,简要记录一些个人觉得比较巧妙的编程实现。
  • 05.24 20:59:43
    发表了文章 2022-05-24 20:59:43

    地图可视化不只是pyecharts.map

    导读:地图可视化是一种非常直观的数据分析结果展现形式,python有很多可视化库可以实现,pyecharts就是很多python爱好者喜爱的实现地图可视化方法之一。不可否认,pyecharts绘制的地图实现方便、图形美观而且支持交互,但在面对不同需求时,其实我们还有很多其他手段实现地图可视化。
  • 05.24 20:54:15
    发表了文章 2022-05-24 20:54:15

    再也不担心用不好二分法了,因为我找到了"作弊"的接口

    导读:算法是程序的灵魂,而复杂度则是算法的核心指标之一。为了降低复杂度量级,可谓是令无数程序员绞尽脑汁、甚至是摧枯秀发。一般而言,若能实现对数阶的时间复杂度,算法效率往往就已经非常理想。而实现对数阶的常用思想莫过于二分。 二分常有,好用的二分并不常有。while条件是lo<hi还是lo<=hi?分支判断mid是+1还是-1还是仍然取值mid?最后return哪个值?如果目标序列不是严格递增又该怎么处理?想想都不禁让人敬而远之。幸运的是,在python语言中,已经内置了成熟的二分函数。
  • 05.24 20:30:40
    发表了文章 2022-05-24 20:30:40

    递归+回溯求解数独问题

    导读:回溯是常用的算法理论之一,很多规模较大、直接分析较为复杂的问题都可以考虑用回溯求解,例如N皇后问题、骑士周游和走迷宫问题等。本质上,回溯问题是一种优化后的暴力求解,通过及时的剪枝和启发式的寻找最优路径,可以有效加速求解过程。回溯还常常与递归搭配使用
  • 05.24 20:27:41
    发表了文章 2022-05-24 20:27:41

    物以类聚,数以"桶"分

    "桶"在数据结构与算法领域可以说是有着重要的应用,从简单的排序算法到某些特定数据结构,运用桶的思想考虑问题往往有出人意料的效果。
  • 05.24 20:17:06
    发表了文章 2022-05-24 20:17:06

    Pandas、Matplotlib、Pyecharts数据分析实践

    上篇中,我们对比了各种方式下的爬虫效率,并得到了安居客平台杭州的二手房数据3000条。今天,以此3000条数据为对象,我们尝试应用Pandas、Matplotlib和Pyecharts3个数据分析及可视化库进行练手实践。
  • 05.24 20:08:41
    发表了文章 2022-05-24 20:08:41

    回溯求解N皇后问题

    前期尝试过8皇后问题,虽然最后完成了求解,但过程其实是比较懵圈的
  • 05.24 20:05:12
    发表了文章 2022-05-24 20:05:12

    第一个安卓App

    时间过得很快,在忙碌无声之间,岁月的年轮又增加了一圈。感慨时间飞逝之余,似乎总想留些什么来证明这一年并未虚度,于是决定去完成自己曾经的一个小计划:入门Android App开发——不曾打算以此为主业,纯粹是出于兴趣涉猎一下罢了。
  • 05.24 10:07:00
    发表了文章 2022-05-24 10:07:00

    应用C#设计winform的一些心得

    近期,因工作需要,应用C#设计了一个winform界面,主要是用来实现人员的量化积分管理,类似于很多单位的绩效考核管理系统那种。坦言之,这其实只是个人第二次涉猎winform窗体应用的设计(上一次还要追溯6-7年前的院校时期),上手还是比较慢的,前后大概花了10天时间。因为最后功能上还算比较满意,特写此文以作总结,记录当下。
  • 发表了文章 2022-05-28

    人间真实——用interpret可解释分析一下影响年薪收入的因素

  • 发表了文章 2022-05-28

    开启机器学习懒人模式——AutoGluon小试某数据挖掘训练赛

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:三大神经网络在股票数据集上的实战

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:循环神经网络【RNN】

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:卷积神经网络【CNN】

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:深度神经网络【DNN】

  • 发表了文章 2022-05-28

    且用且珍惜:Pandas中的这些函数/属性将被deprecated

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:Tensor如何实现自动求导

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:构建一个深度学习模型需要哪几步?

  • 发表了文章 2022-05-28

    PyTorch学习系列教程:何为Tensor?

  • 发表了文章 2022-05-28

    最近,又发现了Pandas中三个好用的函数

  • 发表了文章 2022-05-28

    Pytorch学习系列教程:入门简介

  • 发表了文章 2022-05-28

    时序预测的三种方式:统计学模型、机器学习、循环神经网络

  • 发表了文章 2022-05-28

    最近,深入研究了一下数据挖掘竞赛神器——XGBoost的算法原理和模型数据结构

  • 发表了文章 2022-05-28

    数据科学:Sklearn中的决策树,底层是如何设计和存储的?

  • 发表了文章 2022-05-28

    数据科学系列:plotly可视化入门介绍

  • 发表了文章 2022-05-28

    一文介绍机器学习中的三种特征选择方法

  • 发表了文章 2022-05-28

    一张图介绍机器学习中的集成学习算法

  • 发表了文章 2022-05-28

    Numpy中的广播机制,你确定正确理解了吗?

  • 发表了文章 2022-05-28

    还在苦恼特征工程?不妨试试这个库

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息