在处理特征的过程中,往往在分析对比数据时需要分析数据的分布情况,这时在python中常用到matplotlib中的pyplot模块中的hist函数。
但在使用hist时存在着如果设置normed,改变bins数量会导致概率变化的问题,因此在绘制分布直方图时需要将bins数量设置为真实的数量。

2.hist参数解析

matplotlib.pyplot.hist(
  x, bins=10, range=None, normed=False,
  weights=None, cumulative=False, bottom=None,
  histtype=u'bar', align=u'mid', orientation=u'vertical',
  rwidth=None, log=False, color=None, label=None, stacked=False,
  hold=None, **kwargs)

x : (n,) array or sequence of (n,) arrays

这个参数是指定每个bin(箱子)分布的数据,对应x轴

bins : integer or array_like, optional

这个参数指定bin(箱子)的个数,也就是总共有几条条状图

normed : boolean, optional

If True, the first element of the return tuple will be the counts normalized to form a probability density, i.e.,n/(len(x)`dbin)

这个参数指定密度,也就是每个条状图的占比例比,默认为1

color : color or array_like of colors or None, optional

这个指定条状图的颜色