python-day7-数据操作
一、数据分析
(一)定义
数据分析,指用专业的统计分析方法对大量数据进行分析,并加以详细研究和概括总结,提取有价值的信息,形成有效的分析结论,从而影响业务决策。
(二)作用
增加收入;降低成本;规避风险。
(三)数据分析工具
- Python、R、SQL等-
- Excel、Power Bl、Tableau、FineBI等
- Matplotlib、echarts、pyecharts等
(四)数据分析
1.明确分析目的与思路
2.数据收集
1) 数据库(MySQL)、数据仓库(Warehouse, HiveSQL)
2) Excel、CSV、TXT、 JSON等
3) 系统/平台
4) 网络爬虫
5) API
3.数据处理
1)异常值、错误值、缺失值等处理;
2)字段的拆分、合并、提取信息、格式转换等;
3)表关联:左、右、外(全)、内连接、笛卡尔积表、左半连接、左反连接等;
4)表结构转换:行转列、列转行、行列转置、数据透视(逆透视)等。
4.数据分析
5.数据可视化
做图表使得数据可视化。
6.数据分析报告
7.数据应用
二、文件读写
open(参数1,参数2,参数3…):打开文件,打开的是一个文件对象。
参数1:路径和文件名。
参数2:文件打开方式
参数3:文件打开的编码形式–utf-8
参数1:
1).表示当前文件夹(可以省略不写)。
2) …表示返回上一级。
3)文件夹和文件夹之间以及文件夹和文件之间需要使用\间隔。
4)路径有绝对路径和相对路径之分:
绝对路径:以磁盘为参照,使用\。
‘D:\Python-code+PyCharm项目\python\day07\test’
相对路径:以当前所找参照物为基础,另一个文件相对于参照物的所在位置,使用/。
所有文件在内存中都是以二进制形式保存的。
参数2:
r、a、w、+等
r: 只读,如果文件不存在,报错。
w: 只写,文件不存在,先自动创建;文件存在,先清空(如果某个文件夹不存在,不会创建文件夹)。
a: 只写,文件不存在报错;文件存在,追加。
+: 可读可写,将r、a、w变为可读可写的符号:r+、a+、w+。
所有文件在内存中都是以二进制形式保存的。
r、w、a、+: 文件编辑方式
t、b: 文件展示形式
t: 文本
b: 字节
r、w、a等价于rt、wt、at、tr、tw、ta: t默认的,可以不写
rb、wb、ab、br、bw、ba: 表示以字节形式操作文件
Python操作文件要么读、要么写,不能同时读写。
参数3:
encoding = 'utf-8
(一)文件读操作
读: r
指针:文件操作时指针默认在文件开始位置,指针会随着文件操作不断变化。
例:读同一目录的文件夹下的文件
输出结果:
咏鹅
鹅鹅鹅,曲项向天歌。
白毛浮绿水,红掌拨清波。 <class ‘str’>
- read():一次性读所有内容,读出来结果为字符串
print(f.read()) - readline():一次读一行,读出来结果为字符串
print(f.readline()) - readlines():一次性读所有内容,每一行内容作为列表中的一个元素
print(f.readlines())
输出结果:
咏 鹅
[‘\t骆宾王\n’, ‘鹅鹅鹅,曲项向天歌。\n’, ‘白毛浮绿水,红掌拨清波。\n’, ‘咏 鹅’]
(二)文件写操作
写:w
步骤:
- Python操作文件流程
- 新建xxx名字的文件
- 写入内容
- 保存关闭
例:
输出结果:
咏 鹅
骆宾王
鹅鹅鹅,曲项向天歌。
白毛浮绿水,红掌拨清波。
会创建一个咏鹅TXT,TXT例里的内容为
(三)图片的读写操作
使用二进制读写。b
例:
结果:
会把图片用二进制写入要写入的文件路径中