目录
Pycharm的安装即环境配置
数据分析学习
保存数据
Pycharm的安装即环境配置
选择Community(社区版),下载
双击.exe文件后,选择目录时建议改为D盘、E盘等
在查阅一番资料后了解到,这里安装时不建议选择.py,因为后续会出现关联,打开.java文件时会用pycharm默认打开。
接下来点击Install,出现安装界面。
如果之前没有下载有Python解释器的话,需要下载python解释器,不然pycharm只是一个虚壳。进入python官方网站: https://www.python.org/.
选择需要的python版本号,点击Download,我选择的是python3.8.6-executable可执行版。
注释:64代表64位,executable表示可执行版,下载得到exe文件进行程序安装
剩余具体安装步骤请参考网上其他博客学习,这里不做多与赘述
本次组队学习需要用到的是python中的两个库numpy和pandas进行后续的数据分析学习,pycharm安装好后由于一系列因素在pycharm中我的numpy和panadas无法进行import操作,于是下载安装了另外一款操作简单的软件anaconda
anaconda安装链接:https://www.anaconda.com/
安装好的界面如下,可以选择安装自己需要的库
安装好以后打开JupyterLab
数据分析学习
1.pd.read_csv()和pd.read_table()的不同
通过上图我们可以看出,用pd.read_table()加载数据时,数据的间隔变得紧凑,查阅资料后得知,这是因为它们的默认切割符号不一样,read_table默认是'\t'(也就是tab)切割数据集的;而read_csv默认是','(也就是逗号)切割数据集的;
2.使pd.read_table()达到和pd.read_csv()同样的效果
给出sep=‘,’即可
3. .tsv和.csv格式文件的区别及Python处理
TSV:tab separated values;即“制表符分隔值”,如:
name age
张三 15
李四 16
CSV: comma separated values;即“逗号分隔值”,如:
name,age
张三,15
李四,16
说白了,TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。
4.每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
print(chunker)
执行结果如下
理解:逐块读取用于数据量大时,可以较为整体地了解数据的情况,暂时忽略其内部的具体构成,可以对数据有一个大体的判断。
5.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()
6.观察数据
- 查看数据的基本信息,有多少行多少列等
df.info
- 观察前15行数据和后10行数据
df.head(15)
df.tail(10)
- 查看数据的基本信息
df.head(n) 查看DataFrame对象的前n行
df.tail(n) 查看DataFrame对象的最后n行
df.info() 查看索引、数据类型和内存信息
df.unique() 快速查看数据列有哪些分类内容,
df.sum() 返回所有列的求和值
df.mean() 返回所有列的均值
df.corr() 返回列与列之间的相关系数
df.count() 返回每一列中的非空值的个数
df.max() 返回每一列的最大值
df.min 返回每一列的最小值
df.median() 返回每一列的中位数
df.std() 返回每一列的标准差 - 判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull().head()
保存数据
df.to_csv('train_chinese.csv')