数据分析 常见异常及解决办法(一)

简介: 在使用Jupyter Notebook读取数据进行分析时,如下:

1.Jupyter读取数据警告ParserWarning: Falling back to the ‘python’ engine because the ‘c’ engine does not support regex separators

在使用Jupyter Notebook读取数据进行分析时,如下:

<ipython-input-5-9af9eaa72e92>:5: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  users = pd.read_csv('users.dat',sep = '::',header = None,names = labels)

提示C引擎不支持正则表达式分割,需要使用Python引擎,此时只需要在读取数据文件时加入参数,engine='python'即可,如下:

users = pd.read_csv('users.dat',sep = '::',header = None,names = labels, engine='python')

此时再执行就不会再提示警告信息了。

2.使用matplotlib画图警告 RuntimeWarning: Glyph 30005 missing from current font

在使用matplotlib库进行画图时,如果标题等文字中出现中文,就可能出现警告:

E:\Anaconda3\lib\site-packages\matplotlib\backends\backend_agg.py:214: RuntimeWarning: Glyph 30005 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\Anaconda3\lib\site-packages\matplotlib\backends\backend_agg.py:214: RuntimeWarning: Glyph 24433 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\Anaconda3\lib\site-packages\matplotlib\backends\backend_agg.py:214: RuntimeWarning: Glyph 25968 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\Anaconda3\lib\site-packages\matplotlib\backends\backend_agg.py:214: RuntimeWarning: Glyph 25454 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\Anaconda3\lib\site-packages\matplotlib\backends\backend_agg.py:214: RuntimeWarning: Glyph 25454 missing from current font.
  font.set_text(s, 0.0, flags=flags)

意思是plt画图找不到字体,需要进行配置。

有两种方式:

  • 临时设置
    在调用画图函数前进行配置:
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False

即设置字体为微软雅黑,支持中文。

但是这只是临时设置,下一次再使用又得设置,显得很麻烦。

  • 永久配置

永久设置是编辑matplotlib的配置文件matplotlibrc,修改后以后无需再修改、一劳永逸。该文件一般位于%PythonPath%\Lib\site-packages\matplotlib\mpl-data(PythonPath即表示安装的Python路径),如果使用的是Anaconda,则是%AnacondaPath%\Lib\site-packages\matplotlib\mpl-data(AnacondaPath表示Anaconda的安装路径)。

在matplotlibrc文件中找到如下位置(定义font.family处):

2345_image_file_copy_62.jpg

修改如下:

## The font.size property is the default font size for text, given in pts.
## 10 pt is the standard value.
##
## Note that font.size controls default text sizes.  To configure
## special text sizes tick labels, axes, labels, title, etc, see the rc
## settings for axes and ticks.  Special text sizes can be defined
## relative to font.size, using the following values: xx-small, x-small,
## small, medium, large, x-large, xx-large, larger, or smaller
font.family  : monospace
font.monospace : Microsoft YaHei, SimHei, Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif
#font.style   : normal
#font.variant : normal
#font.weight  : normal
#font.stretch : normal
#font.size    : 10.0

主要是第10、11行,设置font.family : monospace取消#注释,添加一行font.monospace : Microsoft YaHei, SimHei, Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif,Microsoft YaHei为微软雅黑、SimHei为黑体、支持中文。

然后再重启Jupyter Notebook或者重新运行代码即可显示中文,如下:

2345_image_file_copy_64.jpg

3.Pandas使用DataFrame.ix[]报错 ‘DataFrame’ object has no attribute ‘ix’

在较新版的pandas库中使用DataFrame.ix[]时,会报错如下:

AttributeError: 'DataFrame' object has no attribute 'ix'

意思是DataFrame没有ix属性,这是因为从pandas的1.0.0版本开始,移除了Series.ixDataFrame.ix,可以直接使用DataFrame.iloc[]DataFrame.loc[]代替。

4.Pandas画直方图报错’Rectangle’ object has no property ‘normed’

在使用Pandas画直方图时,如下:

values.hist(bins=100, alpha=0.3, color='k', normed=True)

5.在对数据进行groupby时警告Indexing with multiple keys

在使用groupby()方法对数据进行分组时,有时候会使用到多个列,这时候会显示警告信息:

FutureWarning: Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.

这是因为在进行分组时使用多个列时的方式不对,为data1 = orders.groupby('付款时间')['支付金额','订单编号'].agg({'支付金额':'sum','订单编号':'count'}),显然,在[]中传入了多个参数,因此会提示警告,正确的做法是将这些列名放入一个列表,再将列表放入中括号,即为:

data1 = orders.groupby('付款时间')[['支付金额','订单编号']].agg({'支付金额':'sum','订单编号':'count'})

即使用双层中括号即可。

相关文章
|
25天前
|
数据可视化 数据挖掘
如何利用数据可视化工具来发现处理后数据中的异常或不一致?
在使用这些可视化工具时,需要仔细观察图形中的细节,结合数据的背景和业务知识,来准确判断是否存在异常或不一致。同时,也可以通过交互操作和深入分析来进一步挖掘潜在的问题。
41 2
|
24天前
|
运维 数据可视化 数据挖掘
如何选择适合自己的数据可视化工具来处理数据异常?
如何选择适合自己的数据可视化工具来处理数据异常?
57 31
|
24天前
|
数据可视化
利用数据可视化工具处理数据异常的具体流程是什么?
利用数据可视化工具处理数据异常的具体流程是什么?
49 4
|
7月前
|
数据可视化
8个常见的数据可视化错误以及如何避免它们
本文揭示了8个数据可视化常见错误:误导色彩对比、过多的数据图表、省略基线、误导性标签、错误的可视化方法、不实的因果关系、放大有利数据和滥用3D图形。强调清晰、准确和洞察力的重要性,提醒制作者避免使用过多颜色、一次性展示大量数据、错误图表类型以及展示无关相关性等。正确可视化能有力支持决策,不应牺牲真实性以追求视觉效果。
600 6
|
7月前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
63 9
|
数据挖掘
数据分析|R-异常值处理
数据分析|R-异常值处理
135 0
|
SQL 数据采集 运维
用SQL做一份数据分析报告,涉及哪些知识点?
在工作中,每个数据分析师都离不开做数据分析报告,而一份可落地的报告更是要求灵活地应用工具及理论知识。接下来,我们从工具应用的角度,看看如何用SQL做一份完整的数据分析报告。
246 0
|
机器学习/深度学习 算法 Python
机器学习常见异常和解决办法汇总
scikit-learn是一个Python机器学习库,提供了很多基础的模型和算法。
|
存储 SQL 缓存
Hadoop开发常见异常及解决办法总结(上)
在Hadoop中进行MapReduce开始时,会有进行Map端Join的场景,一般都需要在Driver中添加缓存文件。
Hadoop开发常见异常及解决办法总结(上)
|
SQL 缓存 分布式计算
Hadoop开发常见异常及解决办法总结(下)
在Hadoop中进行MapReduce开始时,会有进行Map端Join的场景,一般都需要在Driver中添加缓存文件。

相关实验场景

更多