• 基于树的模型

基于树的模型能剥啄复杂的非线性关系并提供高精度和稳定性,有随机森林与梯度提升两类

  • 非树模型

太难了

numpy

特征归一化

min_max归一化

def rescale(feature):
    ans = feature.copy()
    for i in range(ans.shape[1]):
        ans[:, i] -= ans[:, i].min()
        q = ans[:, i].max()
        if q:
            ans[:, i] = ans[:, i] / q
    return ans

standardlization

def rescale(feature):
    ans = feature.copy()
    for i in range(ans.shape[1]):
        ans[:, i] -= ans[:, i].min()
        q = ans[:, i].max()
        if q:
            ans[:, i] = ans[:, i] / q
    return ans
pandas

列出DataFrame常用统计量

def common_statistic(df):
    columns=['mean','median','max','min','std','var']
    data=[]
    for c in df.columns:
        row=[
            df[c].mean(),
            df[c].median(),
            df[c].max(),
            df[c].min(),
            df[c].std(),
            df[c].var()
        ]
        data.append(row)
    statistic=pd.DataFrame(data=data,columns=columns,index=df.columns)
    return statistic

数据分析与数据可视化代码块_其他