- 基于树的模型
基于树的模型能剥啄复杂的非线性关系并提供高精度和稳定性,有随机森林与梯度提升两类
- 非树模型
numpy太难了
特征归一化
min_max归一化
def rescale(feature):
ans = feature.copy()
for i in range(ans.shape[1]):
ans[:, i] -= ans[:, i].min()
q = ans[:, i].max()
if q:
ans[:, i] = ans[:, i] / q
return ans
standardlization
def rescale(feature):
ans = feature.copy()
for i in range(ans.shape[1]):
ans[:, i] -= ans[:, i].min()
q = ans[:, i].max()
if q:
ans[:, i] = ans[:, i] / q
return ans
pandas
列出DataFrame常用统计量
def common_statistic(df):
columns=['mean','median','max','min','std','var']
data=[]
for c in df.columns:
row=[
df[c].mean(),
df[c].median(),
df[c].max(),
df[c].min(),
df[c].std(),
df[c].var()
]
data.append(row)
statistic=pd.DataFrame(data=data,columns=columns,index=df.columns)
return statistic