![个人头像照片](https://ucc.alicdn.com/avatar/3huofwnpujlzu_a7d0edc0e1124b6aa58599a0ca649bfa.jpg)
头部大厂打工人、AI创业者。爱好AI、创业、游泳、钢琴。 可review简历并推荐顶级大厂如阿里、字节、微软、华为、大疆。 可咨询美股开户
暂时未有相关通用技术能力~
阿里云技能认证
详细说明脏数据: 缺失值 异常值 不一致值 重复数据以及特殊符号 异常值分析: 简单统计量分析 3倍标准差原则 如果数据服从正态分布,在3标准差原则的情况下,异常值被定义为超过三倍标准差的...
方差 标准差 变异系数 度量标准差相对于均值的离中趋势 标准分 标准分提供了一种对不同数据集的数据进行比较的方法,这些数据来自于不同数据源的均值和方差都不一样,通过标准分,可以将这些数据视为来自同一个数据集或者分布,从而可以进行比较。
销售业绩是追踪出来的,尽量图表化 常用工具 Excel, SPSS , SAS, R, python, Matlab 游戏:车牌号24点 销售层级 店长,销售主管,城市经理 同比与环比 同比,就是跟去年同期比;环比,就是跟上一个周期比。
概念 加权算术均值: 众数:集合中出现最频繁的值。一般具有两个或更多众数的数据集是多峰(multimodal)的。
回归分为线性回归与逻辑回归。 基本概念 R方:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。
我们对 DataFrame 进行选择,大抵从这三个层次考虑:行列、区域、单元格。 其对应使用的方法如下: 一.
robots.txt 文件 - 网站对爬虫限制的声明(http://www.robotstxt.
用特定于分组的值填充缺失值 用平均值去填充nan s=pd.Series(np.random.
groupby import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2'...
尽管pandas的绘图函数可以处理很多普通的绘图任务,但是要使用高级功能的话需要学习matplotlib API。
split拆分常和strip使用 val='a,b,guido' val.split(',') ['a', 'b', 'guido'] pieces=[ x.
合并数据结构 pandas.merge 根据一个或多个键将不同DataFrame中的行连接起来。
from lxml.html import parse import urllib.request parsed=parse(urllib.
基本命令 pd.read_csv('1.txt') 只想读几行文本文件 pd.read_csv('1.
Remove dict.iteritems(), dict.iterkeys(), and dict.
最浅显易懂的协方差与标准差 https://www.zhihu.com/question/20852004 ...
pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series 注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。
DataFrame的apply方法,将函数应用到行或者列形成的一维数组上. frame=pd.
axis=0和1分别的表格的纵轴和横轴 最浅显易懂的协方差与标准差 https://www.
参考网址: http://www.cnblogs.com/begtostudy/archive/2010/08/03/1790935.
前一两个月一直在出差,没有时间更新博客,现正式回归,还是喜欢平静的家庭生活,还有两周就要第一次当爸爸了,工作之余也没闲着,看了很多生孩子坐月子的书,愿一切平安! ...
最近在出差,好久没有写了,继续… range([start,] stop[, step])根据start与stop指定的范围以及step设定的步长,生成一个序列.
dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列 df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数,索引,列名称。
data=Series(np.random.randn(10),index=[list('aaabbbccdd'),list('1231231223')]) data a 1 0.
参考文档:http://pda.readthedocs.io/en/latest/chp5.html http://pandas.
pieces=[] columns=['name','sex','births'] for year in range(1880,2011): path=('C:\\Users\\ec...
参考链接:http://pandas.pydata.org/pandas-docs/stable/merging.html merge 用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中的 JOIN。
透视表,根据一个或多个键进行聚合,并根据行列上的分组键将数据分配到各个矩形区域中. import numpy as np data=pd.
因为自己对商业非常感兴趣,最近听了好多关大数据、BI等数据挖掘的讲座,很感兴趣,结合自己的技术背景与兴趣,志在讲自己的后半生布道在python,大数据、数据挖掘的路上。
实验环境:Anaconda-> Jupyter 参考数据:利用python进行数据分析 python版本 3.