def get_CDF(numList):
	print "total number of numList %d"%len(numList)
	numArray = np.asarray(numList)
	dx = .01
	bins_array = np.arange(-0.5,1.5,dx)
	
	hist, bin_edges = np.histogram(numArray, bins=bins_array, normed=False)
	cdf = np.cumsum(hist)
	cdf = cdf/float(hist.sum())
	
	bins_list = bins_array[1:]
	return (bins_list, cdf)

  折腾了好久,之前写写了个画histogram图的代码,但是发现如果要画两个list的话,会出现问题,他们的下标没法统一,而且之前的代码也还有个问题,解释如果list中的元素都是0-1之间小数的话,极容易出现上下取整,变为1,0,然后画图出来的效果就不是归一化了。

  今天在要画两个图的情况下,自己找了不少资料,最后整理出来了一个。记录下。

  有几个问题需要注意

1.cdf/float(hist.sum())这里一定要float不然的话,出来的就都是0了,因为本来这里求的就是频数的小数,如果不加float,就变为0了。

2.bins_list = bins_array[1:] 这里需要从1开始取,因为经过cumsum之后,会少了一个元素,这是因为第一个元素之前的值为0,自动省掉了。另外bins_array可以用来直接转换为array。这点还挺意外的。这个少了一个数的,可以参考这个回答http://stackoverflow.com/questions/15697350/binning-frequency-distribution-in-python

3.histogram,normed我这里设置的是false,因为我设置为true的时候,统计的是概率,一直不对劲,我也没搞懂他的概率是怎么算的。false的话就是频数。