pandas是机器学习非常重要的模块,和numpy, sciki-learn一起,让机器学习变得非常简单有效。我也是初学者,现在把我整理的分享给大家。

pandas是管理数据的模块,对于初学者来说,可以理解成用命令去操作Excel表。 它提供了非常多的API, 可以查看,选择,操作指定range,cell, row or column.

Installation

pip install pandas

Json to DF

import pandas as pd
data = dict(name=['rock', 'sandy', 'gui'], math=[100,90, 20], english=[89, 92, 80], sex=['man', 'female', 'man'])
df = pd.DataFrame(data)
df

pandas基本知识一_机器学习

csv文件导入导出

df.to_csv('grade.csv')
df2 = pd.read_csv('grade.csv')
df2

pandas基本知识一_机器学习_02

 查看数据

df.head()    #默认显示前5行
df.head(1)

pandas基本知识一_机器学习_03

df.tail(3)    #显示最后3行
df.columns #显示列名
df.describe()    #显示统计分析

pandas基本知识一_机器学习_04

df.T    #行列翻转

pandas基本知识一_机器学习_05

df.sort_values(by='math')    #默认升序。 如果要降序,可以设置ascending=False

pandas基本知识一_机器学习_06