一、切分训练集,测试集
from sklearn.model_selection import train_test_split
#随机 划分30%作为测试集 random_state=531
xTrain,xTest,yTrain,yTest = train_test_split(X,y,test_size=0.3,random_state=531)
二、计算均方误差(也可以自己算,就是简单嘛)
from sklearn.metrics import mean_squared_error
mean_squared_error(yTest,p)
三、计算正确个数,正确率
from sklearn.metrics import accuracy_score
correct = accuracy_score(yTest,preditions)
#就是简单的比较正确的个数,normalize=True 则返回正确的概率
四、混淆矩阵(可以反映每个类中,预测正确的个数)
from sklearn.metrics import confusion_matrix
confusionMat = confusion_matrix(yTest,pList)
五、train_score_(这个参数有没有,依模型而定)
#GradientBoosting有,RandomForest没有
#每次迭代,训练集产生的误差(deviance)
#mean_squared_error,missClassError
plt.plot(range(1,nEst+1),glassGBMModel.train_score_,label='Training Set Mse',linestyle = ':')